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PREFACIO 


Olá, seja muito bem-vindo! 

O texto deste livro é originário de uma tese de doutorado, organizada 
em uma coletânea de cinco artigos científicos publicados em revistas nacionais 
e internacionais de alto impacto, disponível no endereço eletrônico: http:// 
repositorio.ufgd.edu.br/jspui/handle/prefix/2385. O artigo apresentado no 
Capítulo 6 foi vencedor do Prêmio Mercosul de Ciência e Tecnologia, Edição 
2018, na categoria pesquisador sênior. 

Neste livro, estudaremos os conceitos fundamentais necessários para criar 
uma abordagem de visão computacional que seja capaz de identificar doenças 
e pragas da soja em um ambiente de campo real, sob diferentes condições de 
iluminação, tamanho de objeto e variações de fundo. Para tal propósito, serão 
implementadas e avaliadas diferentes técnicas rasas (SVM, k-NN, Naive Bayes, 
J48, AdaBoost e Random Forest) e profundas (Inception-V3, Resnet-50, VGG- 
16, VGG-19, Xception, Inception-Resnet-v2 e DenseNet-201) de aprendizagem 
de máquina. As imagens capturadas pelo VANT serão submetidas à tarefa de 
classificação de doenças foliares e espécies de insetos encontrados na soja. 
Diferentes métricas, como taxa de classificação correta (TCC), medida-F, área 
sob a curva ROC e tempo para criar o modelo de classificação serão usadas para 
avaliar o desempenho dos classificadores e verificar se os algoritmos testados 
diferem estatisticamente em relação ao desempenho. 

Este livro está organizado em sete capítulos com os seguintes objetivos: 


* | Determinar os parâmetros tecnológicos de voo do VANT, como a al- 
tura ideal recomendada para a identificação de doenças da soja e o 
limite de altura mais baixo; 


* Verificar se ao catalogar novas doenças da soja e aumentar a quan- 
tidade de classes ao dobro existe evidência de diferença significativa 
da taxa de classificação correta em relação aos classificadores com- 
parados; 


* Definir o melhor classificador para o reconhecimento de doenças e 
quais atributos visuais levam a maiores taxas de classificação cor- 
reta; 


* Avaliar modelos de aprendizagem profunda reconhecidos da literatu- 
ra, usando imagens capturadas pelo VANT com a altura ideal reco- 
mendada para a identificação de doenças. Em seguida, comparar os 
resultados de desempenho dos modelos de aprendizagem profunda 
com outras técnicas tradicionais da área; 


* Avaliar diferentes estratégias de treinamento para os modelos de 
aprendizagem profunda, como ajuste fino, transferência de aprendi- 
zagem e inicialização de pesos aleatórios, apropriadas para os pro- 
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blemas abordados; 


* Avaliar modelos de aprendizagem profunda reconhecidos da literatu- 
ra, treinados com diferentes parâmetros de ajuste fino e transferên- 
cia de aprendizagem, para as tarefas de classificação e contagem de 
insetos-praga da soja. 

Para mais detalhes, vocês podem consultar o meu currículo na plataforma 
Lattes do CNPq disponível em: http://lattes.cnpq.br/4761324267689856 

Boa leitura! 

Prof. Dr. Everton Castelão Tetila 
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RESUMO 


A soja (Glycine max) é uma oleaginosa com bom perfil nutricional e importante respaldo 
econômico para a indústria alimentícia ao redor do mundo. Desde a semeadura até a 
colheita, a cultura da soja está sujeita a ataques bióticos de pragas e doenças, podendo 
ocasionar a depreciação do produto final. Neste trabalho propomos criar um sistema de 
visão computacional para identificar doenças e pragas na cultura da soja que seja capaz 
de apresentar ao produtor o nível de infestação de cada região da lavoura para um manejo 
mais eficiente de suas populações. O sistema proposto baseia-se no método Simple Linear 
Iterative Clustering (SLIC) para segmentar as folhas das plantas nas imagens da plantação, 
capturadas por veículos aéreos não tripulados (VANT) de uma linha bastante popular do 
mercado de VANT, denominada DJI Phantom. Em seguida, técnicas rasas e profundas da 
aprendizagem de máquina são usadas na classificação de doenças e pragas agrícolas. 
Na tarefa de classificação de doenças, o desempenho das técnicas de aprendizagem de 
máquina supervisionada foi avaliado para cinco alturas de voo diferentes: 1, 2,4, 8e 16 
metros. Com técnicas rasas (SVM, k-NN, Naive Bayes, J48, AdaBoost e Random Forest) e 
atributos visuais das folhas (cor, gradiente, textura e forma), os experimentos sustentaram a 
hipótese de que as alturas de voo mais próximas entre o VANT e a planta apresentam maiores 
taxas de classificação correta (TCC). Para aprendizagem rasa, especificamente usando o 
classificador SVM, os experimentos alcançaram 98,34% na identificação da doença foliar 
usando alturas de voo entre 1 e 2 metros, com decaimento de 2% a cada metro, uma vez que 
a resolução da planta na imagem diminui para uma altura de voo mais alta. Os experimentos 
também confirmaram que mesmo catalogando novas doenças e aumentando o número de 
3 para 6 classes, não houve evidência de diferença estatística significativa das métricas 
de desempenho para os dados coletados pelo VANT a 2 metros de altura da plantação. 
Com técnicas de aprendizagem profunda, quatro modelos reconhecidos pela concorrência 
no ImageNet foram avaliados para o reconhecimento automático de doenças foliares da soja, 
usando diferentes estratégias de fine-tuning (ajuste fino) e transfer learning (transferência 
de aprendizagem), sobre um conjunto de 3.000 imagens capturadas em condições reais de 
campo. Aumento de dados (data augmentation) e função de abandono dropout foram usados 
durante o treinamento da rede para aumentar a quantidade de dados e eliminar aleatoriamente 
alguns dos neurônios ocultos na rede, evitando o sobreajuste (overfitting). Os resultados 
mostraram que os modelos Inception-V3, Resnet-50, VGG-19 e Xception alcançaram taxas 
de classificação mais altas usando a estratégia de ajuste fino, atingindo 99,04% de amostras 
classificadas corretamente. Do mesmo modo, os modelos de aprendizagem profunda foram 
avaliados para a tarefa de classificação de insetos da soja, usando diferentes estratégias de 
fine-tuning e transfer learning, sobre um conjunto de 5.000 imagens coletadas diretamente 
do campo com a câmera de um smartphone. Os resultados mostraram que os modelos de 
aprendizagem profunda treinados com um ajuste fino atingiram maiores taxas de classificação 
em comparação a outras abordagens, alcançando uma acurácia de até 93,82%. Além disso, 
os modelos de aprendizagem profunda superaram nos experimentos os métodos de extração 
de atributos tradicionais, como SIFT e SURF com a abordagem histograma de palavras 
visuais, o método de aprendizagem semi supervisionada OPFSEMImst e os métodos de 
aprendizagem supervisionada usados para classificar imagens, como SVM, k-NN, Naive 
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Bayes, J48, AdaBoost e Random Forest. Na tarefa de contagem de insetos-praga, três 
modelos de aprendizagem profunda foram avaliados. Os pesos da rede neural convolucional 
(RNC) DenseNet-201 FT - que obteve o maior valor para a acurácia (94,89%) na tarefa de 
classificação - foram usados em nosso sistema de visão computacional para a contagem 
dos insetos na imagem, obtida pela adição dos superpixels de cada classe. Deste modo, 
demonstramos como um modelo de aprendizagem profunda pode ser implementado em um 
sistema de visão computacional de ponta a ponta para operar em um ambiente de campo 
real, sob diferentes condições de iluminação, tamanho de objeto e variações de fundo. Na 
etapa de pós-processamento um mapa colorido é gerado, fornecendo uma classe de cada 
problema (doença ou praga) por segmento e a soma dos superpixels apresenta ao produtor 
o nível de infestação de uma região da lavoura, ao classificar os segmentos de uma imagem 
da plantação. Os resultados indicam que os modelos de aprendizagem profunda podem ser 
usados com sucesso para apoiar especialistas e agricultores no monitoramento de patógenos 
e pragas nos campos de soja. 

PALAVRAS-CHAVE: Sensoriamento remoto baseado em VANT. doenças foliares da soja. 
insetos-praga da soja. agricultura de precisão. aprendizagem profunda. visão computacional. 
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ABSTRACT 


Soybean (Glycine max) is an oleaginosa with good nutritional profile and important economic 
support for the food industry around the world. From sowing to harvesting, soybean cultivation 
can be affected by biotic pest and disease attacks, which may lead to depreciation of the 
final product. This thesis proposes to create a new system of computational vision to identify 
diseases and pests in the soybean crop that is able to present to the producer the level of 
infestation of each region of the field for a more efficient management of its populations. The 
proposed system is based on the Simple Linear Iterative Clustering (SLIC) method to segment 
plant leaves in the planting images captured by Unmanned Aerial Vehicles (UAVs) from a very 
popular UAV market line, called DJI Phantom. Then, shallow and deep techniques of machine 
learning are used in the classification of diseases and agricultural pests. In the task of disease 
classification, the performance of supervised machine learning techniques was evaluated for 
five different flight heights: 1, 2, 4, 8 and 16 meters. With shallow techniques (SVM, k-NN, 
Naive Bayes, J48, AdaBoost and Random Forest) and visual attributes of the leaves (color, 
gradient, texture and shape), the experiments supported the hypothesis that the closest flight 
heights between the UAV and the plant show higher correct classification rates (CCR). For 
shallow learning, specifically using the SVM classifier, the experiments reached 98.34% in 
the identification of foliar disease using flight heights between 1 and 2 meters, with decay of 
2% to each meter, since the resolution of the plant in the image decreases to a higher flight 
height. The experiments also confirmed that even cataloging new diseases and increasing 
the number of 3 to 6 classes, there was no evidence of significant statistical difference of 
the performance metrics for the data collected by UAV at 2 meters height of the plantation. 
With deep learning techniques, four models recognized by the competition in ImageNet were 
evaluated for the automatic recognition of soybean leaf diseases using different strategies of 
fine-tuning and transfer learning on a set of 3,000 images captured under real field conditions. 
Data augmentation and dropout were used during network training to increase the amount of 
data and randomtly eliminate some of the hidden neurons in the network, avoiding overfitting. 
The results showed that the Inception-V3, Resnet-50, VGG-19 and Xception models achieved 
higher classification rates using the fine-tuning strategy, achieving 99.04% of correctly 
classified samples. Likewise, the deep learning models were evaluated for the classification 
task of soybean insects using different strategies of fine-tuning and transfer learning on a set 
of 5,000 images collected directly from the field with the camera of a smartphone. The results 
showed that deep learning models trained with a fine-tuning achieved the highest classification 
rates compared to other approaches, reaching an accuracy of up to 93.82%. In addition, deep 
learning models have outperformed traditional features extraction methods such as SIFT and 
SURF with the bag of visual words approach, the OPFSEMImst semi-supervised learning 
method, and the supervised learning methods used to classify images, such as SVM, k-NN, 
Naive Bayes, J48, AdaBoost and Random Forest. In the pest insect counting task, three deep 
leaming models were evaluated. The weights of the DenseNet-201 FT convectional neural 
network (CNN) - which obtained the highest value for accuracy (94.89%) in the classification 
task - were used in our computer vision system for counting insects in the image obtained 
by adding the superpixels of each class. In this way, we demonstrate how a deep learning 
model can be implemented in an end-to-end computer vision system to operate in a real 
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field setting, under different lighting conditions, object size and background variations. In the 
post-processing stage a color map is generated, providing a class of each problem (disease 
or pest) per segment and the sum of the superpixels presents to the producer the level of 
infestation of a crop region by classifying the segments of an image of the plantation. The 
results indicate that the deep learning models can be successfully used to support specialists 
and farmers in the monitoring of pathogens and pests in soybean fields. 

KEYWORDS: UAV-based remote sensing. soybean leaf diseases. soybean insect pests. 
precision agriculture. deep learning. computer vision. 
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CAPÍTULO 1- INTRODUÇÃO 


11 MOTIVAÇÃO E RELEVÂNCIA DO PROBLEMA 


O estado de Mato Grosso do Sul localiza-se na região Centro-Oeste do Brasil. O 
cerrado recobre a maior parte do estado que apresenta grande potencial de produção 
agrícola (soja, celulose, milho, cana-de-açúcar, etc) e pecuária (bovinos, suínos, aves, etc). 
Essa região caracteriza-se pelos elevados índices de produção agropecuária decorrente 
de seus solos férteis, com extensas superfícies planas (topografia regular), e condições 
climáticas favoráveis (na maior parte do território predomina o clima do tipo tropical ou 
tropical de altitude, com chuvas de verão e inverno seco), aliados a grandes investimentos 
na moderna tecnologia agropecuária. Além de abastecer a indústria alimentícia, o setor 
agropecuário também contribui para o abastecimento de outras indústrias, tais como, 
farmacêutica, cosmética, têxtil e sucroenergética, tornando uma das principais bases da 
economia brasileira. 

A soja (Glycine max) é uma oleaginosa com bom perfil nutricional e importante 
respaldo econômico. “A qualidade nutricional da soja é determinada pelo seu conteúdo de 
proteínas, ácido graxo insaturado, minerais, vitaminas, isoflavonas e outros oligoelementos 
encontrados nas sementes frescas” (XING, 2011). Do ponto de vista econômico, a soja é 
um produto com forte liquidez que tem proporcionado um quadro de suporte dos preços no 
âmbito interno, reforçando a aposta anual dos produtores no incremento de área plantada. 
As expectativas para a temporada 2018/19 mantêm a tendência de crescimento, atingindo 
1,9% de expansão em relação à safra passada. A estimativa da produção brasileira para a 
safra 2018/19 é de 114,8 milhões de toneladas do grão, em um plantio de 35,822 milhões 
de hectares e produtividade média de 3.206 kg/ha. A estimativa da produção de soja 
corresponde a quase metade da estimativa da safra brasileira de grãos que é de 238,9 
milhões de toneladas. No que se refere à produção mundial de soja, Estados Unidos e 
Brasil, nesta ordem, são os maiores produtores mundiais. Mato Grosso é o estado brasileiro 
com a maior produção de soja, seguido por Paraná, Rio Grande do Sul, Goiás e Mato 
Grosso do Sul (CONAB, 2019). 

Desde a semeadura até a colheita, a cultura da soja está sujeita a ataques 
bióticos de patógenos e pragas agrícolas. O conhecimento do dano causado por esses 
agentes na lavoura é importante para otimizar as aplicações de defensivos agrícolas 
e, consequentemente, reduzir o alto custo do controle químico e o impacto ecológico 
decorrente da contaminação do ambiente. A aplicação sistemática de defensivos agrícolas 
caracteriza-se por um considerável desperdício de produtos químicos, mão de obra e 
energia. Estima-se que a maior parte do montante dos custos diretos para a produção 
de soja estejam concentrados nos fertilizantes (27,82%), seguidos pelos defensivos 
agrícolas (18,24%), operações com máquinas (9,10%), sementes (7,35%) e depreciação 
de máquinas e implementos (6,76%) (CONAB, 2016). 


Capítulo 1 


Agentes patógenos e pragas agrícolas estão presentes em diversas regiões 
produtoras do mundo, causando perda de produtividade em várias cultivares, como milho, 
soja, trigo e feijão. O monitoramento de doenças e pragas em fases iniciais de epidemias 
são aspectos fundamentais para a proteção da lavoura (HILLNHUETTER; MAHLEIN, 2008). 
Antes da adoção de qualquer medida de controle de uma praga agrícola, há necessidade 
de sua correta identificação. Espécies semelhantes podem apresentar suscetibilidades 
diferentes a um mesmo produto químico, assim como comportamentos diferentes. No 
Brasil, já foram identificadas mais de 30 espécies de doenças (EMBRAPA, 2014a) e 40 
espécies de insetos causadores de danos na soja (EMBRAPA, 2014b). No entanto, há um 
grupo menor de doenças foliares causadas por fungos com grande potencial de injúria na 
soja, tais como, Ferrugem asiática (Figura 1a), Mancha-alvo (Figura 1b), Oídio (Figura 1c), 
Crestamento foliar de Cercóspora (Figura 1d) e Míldio (Figura 1e). Da mesma maneira, 
Percevejo-marrom (Figura 2a), Percevejo-verde-pequeno (Figura 2b), Percevejo-verde 
(Figura 2c), Lagarta-da-soja (Figura 2d), Falsa-medideira (Figura 2e) e Heliotines (Figura 
2f) são pragas classificadas como de importância primária. 

O complexo de lagartas que se alimenta de folhas e os percevejos que sugam os 
grãos estão entre as principais pragas causadoras de dano econômico, em conformidade 
com a espécie presente no local, bem como o seu nível populacional. Portanto, o 
reconhecimento dessas espécies, associado às técnicas de manejo, é fundamental para 
o controle de doenças e pragas no campo. Além disso, o histórico da área conforme a 
população de doenças e pragas é uma informação importante para o planejamento de 
ações preventivas da safra seguinte. A Tabela 1 apresenta as pragas da soja, categorizadas 
em “principais”, “regionalmente importantes” e “secundárias”, em função da frequência, 
abrangência e danos provocados na cultura (EMBRAPA, 2013). 

Em um adequado programa de controle de doenças e pragas não se recomenda a 
operação de aplicações de defensivos agrícolas em toda a plantação utilizando uma taxa 
uniforme (fixa). Essas aplicações geralmente são feitas sem base em critérios de manejo, 
prevalecendo datas pré-estabelecidas ou calendarizadas. A aplicação de defensivos na 
área total aumenta os custos de produção e contribui para o desequilíbrio ecológico. 
Recomenda- se utilizar a quantidade mínima requerida do produto em cada área com o 
problema identificado, tratando-a de maneira única e diferenciada. Quando se utiliza um 
produto químico sem que a praga ou doença esteja em nível de dano econômico, aumenta- 
se a resistência ao princípio ativo por seleção, agravando o problema em médio e longo 
prazo (TETILA et al., 2017). 
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(c) Oídio (Microsphaera diffusa) (d) Crestamento foliar de cercospora (Cercospora 
kikuchii) 


(e) Míldio (Peronospora manshurica) 


Figura 1 — Doenças foliares causadas por fungos com grande potencial de injúria na soja. 
Fonte: EMBRAPA (2014a). 


O uso abusivo de defensivos agrícolas na lavoura pode provocar diversas 
perturbações ao meio ambiente como: seleção de pragas e patógenos resistentes, redução 
de compostos orgânicos e microrganismos, ressurgimento de espécies controladas, surto 
de pragas de importância secundária, diminuição da população de insetos polinizadores, 
efeitos deletérios em animais, acúmulo de resíduos tóxicos no solo e nos alimentos, 
contaminação da água e da fauna aquática, falhas em programas de erradicação química 
e problemas de ordem econômica e social (PEDIGO; RICE, 2014). 
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(b) Percevejo-verde-pequeno (Piezodorus 
guildinii) 


(e) Falsa-medideira (Chrysodeixis includens) (f) Heliotines (Helicoverpa armigera, H. zea, 
Heliothis virescens) 


Figura 2 — Pragas da soja classificadas como de importância primária. 
Fonte: EMBRAPA (2014b). 


No campo, a simples observação visual não expressa a população real das pragas 
presente no plantio. O monitoramento de pragas por via de regra é realizado com base nos 
princípios do Manejo Integrado de Pragas (MIP) (HOFFMANN-CAMPO, 2000), (CORRêA- 
FERREIRA, 2012) que indica o nível de ação de controle conforme a quantidade de 
insetos identificados no monitoramento. O MIP é um sistema de manejo de pragas que 
associa o estádio fenológico da planta e a densidade populacional dos insetos para uma 
tomada de decisão com relação ao controle, mantendo a população dos insetos em níveis 
abaixo daqueles capazes de causar dano econômico. Essas informações são obtidas em 
inspeções regulares por amostragem para a verificação do número de insetos encontrados 
por área e os sintomas de ataque. Assim, deverá ser realizado o controle químico ou 
biológico somente quando o nível de ação for atingido. 
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Parte da 


Nome científico Nome comum planta Observações 
atacada 
Principais 
Anticarsia gemmatalis Lagarta-da-soja Fo 
Chrysodeixis includens Falsa-medideira Fo 
Helicoverpa armigera Identificação difíci 
: 7 Ee entificação difícil em 
Helicoverpa zeae Heliotines Fo,Va condições de campo 
Heliothis virescens 
Euschistus heros Percevejo marrom Va, Se 
Piezodorus guildinii Percevejo verde pequeno Va, Se 
Nezara viridula Percevejo verde Va, Se 


Regionalmente importantes 


Tem alto potencial de 


Sternechus subsignatus Tamanduá-da-soja Ha dano 
Importante na região do 
Scaptocoris castanea, S. Pervecejos-castanhos-da- Ra cerrado. 
carvalhoi e S. buckupi raiz Têm alto potencial de 
dano 
Phyllophaga cuyabana, 
Liogenys spp. e Plectris Corós Ra 
pexa 
Secundárias 
Importante se ocorrer 
Elasmopalpus ligno-sellus | Broca-do-colo Ha período seco na fase 
inicial da cultura 
Chalcodermus sp. Bicudinho Fo 
Colaspis sp. Vaquinha Fo 
Megascelis sp. Vaquinha Fo 
' S E , Fo(A), Mais comum após milho 
Diabrotica speciosa Patriota Ra(L) “safrinha” 
Fo, Va(A), 
Cerotoma arcuata Vaquinha No(L) 
Diphaulaca viridipennis Vaquinha azul Fo 
; di Co, Fo, Ocorre no início do 
Aracanthus mourei Torrãozinho Pe desenvolvi-mento da soja 
Spodoptera cosmio-ides, ua Insetos com importância 
S. eridiana, S. albula pagana-dassiegene Foria crescente 
Maruca vitrata Lagarta maruca Va 
Etiella zinckenella Broca das vagens Va 
Dichelops melacanthus, Barriga verde va, Se 
D. furcatus 
Edessa meditabunda Percevejo edessa Va, Se 
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Thyanta perditor Percevejo faixa-vermelha Va, Se 
Chinavia spp. Percevejo acrosterno Va, Se 
Crocidosema aporema Broca-das-axilas Fo, Br, Va pe perante 
restritas 
Bemisia tabaci Biotipo B Mosca branca Fo o poiencial de 
Vetores de vírus da 
Caliothrips braziliensis e Tripós Fi “queima do broto”; 
Frankliniella schultzei P J ocorrem em áreas 
restritas 
Ceresa brunnicornis, C. A : Ocorrem em áreas 
fasciatithorax Entcio dao Flare restritas 
, Importante em 
Piolho-de-cobra PI, Se, Co Sompaduradirotã 
E ; Importantes em 
Caracóis e lesmas PI, Co, Fj Sembadura diroiái 
Dysmicoccus sp. E , é Importantes em 
Pseudococcus sp. Gochonilhas-da-raiz Ha semeadura direta 
Pode ocorrer no período 
Omiodes indicata Lagarta-enroladeira Fo reprodu-tivo e causar 
pequena desfolha 
; A Causa clorose e queda 
Mononychellus planki Acaro verde Fo dasiolhas 
Polyphagotarsonemus k Causa bronzeamento das 
latus Acaro branco Fe; Fo folhas e pecíolos 
; A . Causa clorose e queda 
Tetranychus urticae Acaro rajado Fo dás iblhos 
Tetranychus gigas, T. Á Causa clorose e queda 
ludeni, T. desertorum Resta venal Fo das folhas 


Br = brotos; Co = cotilédones; Fj = folhas jovens; Fo = folhas; Ha = hastes; No =nódulos; Pe = 


pecíolos; 


PI = plântulas; Pp = plantas pequenas; Ra = raízes; Se = sementes; Va = vagens. 


(A) = adulto, (L) = larva. 


Tabela 1 — Pragas da soja e a parte da planta que atacam. 


Fonte: Embrapa (2013). 


O controle biológico é o uso de inimigos naturais geralmente usados para combater 
pragas e doenças na lavoura, podendo ser aplicados de forma mecanizada ou por Veículos 
Aéreos Não Tripulados (VANT). Existem dois tipos de biodefensivos: os macrobriológicos, 
que consistem no uso de macroorganismos, como insetos, ácaros e outros inimigos naturais 
das pragas; ou microbiológicos, que se baseiam em bactérias, fungos e vírus. A produção 
de produtos biológicos cresceu mais de 70% em 2018 no Brasil, movimentando R$ 464,5 
milhões ante R$ 262,4 milhões em 2017. Os produtos biológicos são utilizados em cerca de 
10 milhões de hectares, em uma área total plantada de 77,4 milhões de hectares no país. 
Para 2020, a expectativa é que o setor de biodefensivos fature no mundo US$ 5 bilhões e 
US$ 11 bilhões em 2025 (MAPA, 2019). 

O crescimento do mercado brasileiro segue a mesma tendência mundial porque 
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a demanda do mercado internacional tem colocado cada vez mais restrições ao uso de 
defensivos químicos para combater pragas e doenças nas lavouras. Apesar do forte 
crescimento apresentado no último balanço do setor, a produção de produtos biológicos 
responde por apenas 2% do faturamento total do mercado de controle de pragas e a taxa 
de adoção em algumas regiões e culturas, como a soja, não chega a 5%. A baixa adesão 
aos produtos biológicos deve-se a fatores como: disponibilidade do inimigo natural das 
pragas; amostragem de pragas para determinar o momento certo do controle biológico; 
déficit de mão de obra especializada para realizar o controle; tempo de armazenamento 
dos organismos que determina a duração que o produto pode ficar armazenado (MAPA, 
2019). 

Para avaliar o impacto da utilização do Manejo Integrado de Pragas na cultura da 
soja, a Embrapa e o Instituto Emater (PR) conduziram na safra 2013/2014 46 Unidades 
de Referência (URs) em propriedades agrícolas paranaenses. O monitoramento realizado 
mostrou que o número médio de aplicações de inseticidas nas URs que utilizaram o MIP foi 
de 2,3 aplicações, enquanto a média estadual foi de 5 aplicações entre os produtores que 
não utilizaram o MIP. Os resultados indicam que o MIP pode reduzir os custos de produção 
ao diminuir o número médio de aplicações por pulverização, contribuindo com o equilíbrio 
ecológico e a preservação do meio ambiente (EMBRAPA, 2015). Por outro lado, inspeções 
regulares no campo são difíceis de serem realizadas com o MIP quando se tem grandes 
áreas de cultivo. 

Métodos de amostragem, como pano-de-batida, rede-de-varredura, exame visual 
de plantas e exame de amostras de solo tem sido utilizados no monitoramento de pragas 
e seus danos na cultura da soja. Outros métodos como o uso de armadilhas atrativas 
(feromônios, urina bovina, iscas, etc) vem sendo estudados, mas ainda necessitam de 
pesquisas que viabilizem sua utilização pelo sojicultor (CORRêA-FERREIRA, 2012). O 
monitoramento de pragas desde o início do desenvolvimento da soja é muito importante e 
permite uma aplicação mais eficiente de defensivos agrícolas, visto que os insumos podem 
ser aplicados na medida e locais corretos, reduzindo-se assim os custos de produção e o 
impacto ambiental decorrente do uso excedente de controle químico, além de contribuir 
com a saúde humana e a segurança alimentar (TETILA et al., 2017). 

Independentemente do método de amostragem adotado, para se avaliar a infestação 
de pragas na lavoura, sugere-se que o número de insetos seja anotado em cada ponto de 
amostragem para que a média de todos os pontos amostrados seja calculada. Quanto 
maior o número de amostragens realizadas na área, maior a segurança de uma previsão 
correta da infestação de insetos-praga. Recomenda-se, no mínimo, seis amostragens para 
lavouras de até 10 hectares; ou oito para lavouras de até 30 hectares; e 10 para lavouras 
de até 100 hectares. Para propriedades maiores, recomenda-se a divisão por talhões de 
100 hectares (EMBRAPA, S.d.). 

O método de amostragem mais utilizado para o monitoramento das lagartas 


Capítulo 1 


12 


desfolhadoras, dos percevejos sugadores de sementes e insetos de um modo geral é o 
pano-de-batida. Na época crítica para as pragas, de preferência semanalmente, o pano-de- 
batida nas medidas de 1,50 metro de comprimento por 1 m de largura é introduzido enrolado 
entre as fileiras de soja, de forma cuidadosa para não perturbar os insetos presentes na 
área a ser amostrada, ajustando-se um lado na base das plantas, e o outro estendido 
sobre as plantas de soja da fileira adjacente (Figura 3a). As plantas presentes em 1 m de 
fileira são inclinadas sobre o pano e sacudidas vigorosamente (Figura 3b), deslocando- 
se os insetos para o pano (Figura 3c), os quais são contados e registrados em fichas de 
monitoramento (Figura 3d). Esse procedimento deve ser repetido em vários pontos da 
lavoura. O exame de plantas, principalmente das hastes, dos pecíolos, dos ponteiros e das 
vagens, complementa a amostragem com o pano-de-batida. Detalhes da ficha nas Figuras 
4 e 5 (CORRêA-FERREIRA, 2012). O controle deve ser realizado somente quando forem 
atingidos os níveis de danos mencionados na Tabela 2 (EMBRAPA, 2013). 


Autor: ).]. da Silva 


Figura 3 — Sequência utilizada no uso do pano-de-batida em 1 m de fileira de soja. 


Fonte: Corrêa-Ferreira (2012). 
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MONITORAMENTO 


DE PRAGAS NA CULTURA DA SOJA - MIP SOJA 


Data: Monitor: Vegetativo 
Propriedade/Município: 


Floração 


Cultivar: 


Desenvolvimento de vagens 


Data da Semeadura: 
Lote/Talhão: 


Enchimento de grãos 


PRAGAS 


Lagartas: Pequenas = menores 
Grandes = maiores 


Lagarta-da- 
soja 
(Anticarsia) 


Lagarta-falsa- 
medideira 
(Chrysodeixis) 


Lagarta-das- 
vagens 
(Spodoptera spp.) 


Lagartas do 


grupo 
Heliothinae 


Desfolhamento 


Percevejo-verde 
(Nezara) 


Percevejo-pequeno 
(Piezodorus) 


Percevejo-marrom 
(Euschistus) 


Percevejo- 
barriga-verde 
(Dichelops) 


Percevejos 


Broca-dos-ponteiros 
(Crocidosema) 


Tamanduá-da-soja 
(Stemechus) 


Vaquinhas 

(Diabrotica) 
(Cerotoma) 
(Colaspis) 


Torrãozinho 
(Aracanthus) 


Insetos 


Maturação 


pmeme| PONTOS DE AMOSTRAGEM Nivel: de 
do que 1,5 cm controle 
doque1,5cm|1|2/3/4|5/6|7|8|9 |10|Total |Média 
resere PITITITTO 
[ei [7] o 
lagartas 
sd | [T] 
ou 10% de 
ERA = 
danficadas 
re TT] Es 
2 sim = 
o ES 
forescim, 
ou 15 % 
após 
Ninfa 
(3ºao 5º instar) 
aduto | | |] 
Ninfa 
Boina) | || = 
ato [TT 
perc. 
Ninfa im 
(3ºao 5º instar) 
Lavoura 
Ninfa Semente: 
(3ºa0 5º instar) | 
3ºao 5º instar 
Ponteiros 25 8 30% 
Nº de ci ponteiros 
Plantas atacados 
até V3 
1 adulto/ 
Adulto vá: vo 
2 adultos/m 
Destolha: 
30% até o 
fi . 
Adulto ou 15% 
após 
Ei EEE 


Autores: Beatriz S. Corrêa-Ferreira, bscferreira(Ogmail.com, Daniel R. Sosa-Gómez, Clara Beatriz Hoffman-Campo, Samuel Roggia, 
Edson Hirose, Adeney de Freitas Bueno, Embrapa Soja. 


Figura 4 — Ficha (frente) utilizada no monitoramento dos principais insetos-praga amostrados em soja, 


para 


programas de manejo integrado de pragas. 


Fonte: Corrêa-Ferreira et al. (2013). 
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MONITORAMENTO DOS INIMIGOS NATURAIS NA CULTURA DA SOJA 


PONTOS DE AMOSTRAGEM 


Lagarta com Baculovirus 
(doença preta) 


ES Lagarta com Nomuraea 
(doença branca) 
= 
PREDADORES 
Calosoma granulatum 
Callida sp. 
Callida scutellaris 
Lebia concinna 
Eriopsis connexa 
Cycloneda sanguinea 
Podisus sp. 


Tropiconabis sp. 


Geocoris sp. 


Doru sp. 
(tesourinha) 


Autores: Beatriz S. Corrêa-Ferreira, bscferreira(Dgmail.com, Daniel R. Sosa-Gómez, Clara Beatriz Hoffman-Campo, Samuel Roggia, 
Edson Hirose, Adeney de Freitas Bueno, Embrapa Soja. 


Figura 5 — Ficha (verso) utilizada no monitoramento dos principais inimigos naturais amostrados em 
soja, para programas de manejo integrado de pragas. 


Fonte: Corrêa-Ferreira et al. (2013). 
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aco la Período E Formação Enchimento de x 
Emergência vegetativo Floração de vagens vagens Maturação 
1º) 
deja ca a oa auçn 15% de desfolha ou 20 lagartas/m* 
lagartas/m 
Lavouras para consumo 2 percevejos/m** 
Lavouras para semente 1 percevejos/m** 


Broca-das-axilas: a partir de 25% - 30% de plantas com ponteiros atacados 


Tamanduá-da-soja: até V3: 1 adulto/m 
linear de V4 a V6: 2 adultos/m linear 


Lagartas-das-vagens: a partir de 10% 
de vagens atacadas 


* Maiores de 1,5cm e considerando a batida de apenas uma fileira de soja sobre o pano. 
** Maiores de 0,5cm e considerando a batida de apenas uma fileira de soja sobre o pano. 


Tabela 2 — Níveis de ação de controle para as principais pragas da soja. 
Fonte: Embrapa (2013). 


De acordo com a Tabela 2, as lagartas desfolhadoras devem ser controladas quando 
forem encontradas, em média, 20 lagartas grandes (>1,5 cm) por pano-de-batida (uma 
fileira de plantas); ou se a desfolha atingir 30% antes da floração; ou, ainda, 15% tão logo 
apareçam as primeiras flores. Para os percevejos, o controle deve ser iniciado quando 
forem encontrados dois percevejos adultos ou ninfas com mais de 0,5 cm por metro. Em 
campos de produção de sementes, o nível deve ser reduzido para 1 percevejo por metro. 

No caso das doenças, a disseminação do fungo pode ocorrer pela ação dos ventos, 
solo contaminado, restos de cultura, chuva, além de outros hospedeiros; a distribuição na 
lavoura geralmente é observada na forma de reboleiras ou manchas ao acaso. A análise 
de folhas deve ser considerada como uma prática complementar à análise de solo ou 
mesmo a outros critérios de avaliação, como a diagnose visual de deficiências ou excesso 
de nutrientes (avaliação do equilíbrio nutricional). Para a correta utilização da análise foliar, 
um aspecto importante é a época de amostragem e a escolha do tecido a ser colhido. 
A época recomendada é quando 50% das plantas do talhão se apresentar em início do 
florescimento (fase de desenvolvimento R1), que ocorre com o aparecimento de uma flor 
aberta em qualquer nó da haste principal, até a fase R6 (período de maior ocorrência de 
doenças na soja), mas podendo se estender até a fase R8 em conformidade com cada 
doença. A Figura 6 mostra os períodos de ocorrência das doenças da soja. Deve-se colher 
por talhão em torno de 35 folhas trifoliolodas recém-maduras sem pecíolo que, de modo 
geral, correspondem à terceira ou quarta folha a partir do ápice da haste principal (Figura 
7) (CASTRO etal., S.d.). 
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VN V9 Ri R2 R3R4R51R52 R53R54 R55 R6/R7 


Figura 6 — Períodos de ocorrência das doenças da soja. 


Fonte: Adaptado de Saran (2013). 


Folha diagnóstico 
3ºou 4º folha 


Figura 7 — Terceira ou quarta folhas de soja, que podem ser colhidas para a análise de tecido, na fase 
de desenvolvimento R1 (início de florescimento). 


Fonte: Adaptado de Castro et al. (S.d.). 
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O sucesso no controle das doenças está intimamente ligado ao período da 
interferência realizada, seja ela por meio de medidas legislativas e tratos culturais que 
visam prevenir ou retardar a ocorrência de doenças para a safra seguinte, ou por meio 
de intervenções químicas aplicadas de forma preventiva ou curativa durante a safra. 
Nas intervenções químicas, independentemente do método de controle ou dos produtos 
optados, antes do uso é preciso diagnosticar a verdadeira causa dos sintomas existentes 
ou antecipar a sua ocorrência, tendo como base alguns procedimentos como a sanidade 
das sementes, o conhecimento das características das variedades optadas, o histórico de 
ocorrência nas lavouras e as condições favoráveis para a evolução das doenças (SARAN, 
2013). 

O vazio sanitário é uma medida fitossanitária de extrema importância para controlar 
o inóculo da ferrugem asiática durante a entressafra e assim atrasar a ocorrência da 
doença na safra. O vazio sanitário é o período mínimo de 60 dias sem a cultura e plantas 
voluntárias no campo. No Brasil, treze estados e o Distrito Federal adotaram essa medida 
estabelecida por meio de normativas. O fungo que causa a ferrugem-asiática é biotrófico, o 
que significa que precisa de hospedeiro vivo para se desenvolver e multiplicar. Ao eliminar- 
se as plantas de soja na entressafra, o ciclo do fungo é quebrado, reduzindo assim a 
quantidade de esporos presentes no ambiente (EMBRAPA, 2017b). 

O vazio sanitário varia de acordo com a janela de cultivo da soja, por isso, há 
um calendário específico definido pela legislação de cada estado produtor (Figura 8). A 
calendarização da semeadura da soja é a determinação de data-limite para semear a 
soja na safra. Essa medida foi estabelecida também por normativas estaduais de sete 
estados produtores de soja, até o momento: Goiás, Mato Grosso, Paraná, Santa Catarina, 
Tocantins, Bahia e Mato Grosso do Sul. O objetivo da calendarização é reduzir o número 
de aplicações de fungicidas ao longo da safra e com isso reduzir a pressão de seleção por 
resistência do fungo aos fungicidas. Semeaduras tardias de soja podem receber inóculo já 
nos estádios vegetativos, exigindo a antecipação da aplicação de fungicida e demandando 
maior número de aplicações. Quanto maior o número de aplicações, maior a exposição dos 
fungicidas e maior a chance de acelerar o processo de seleção de populações resistentes 
à esses fungicidas (EMBRAPA, 2017b). 
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PERÍODOS DE VAZIO SANITÁRIO (BRASIL/PARAGUAI) 


JUNHO JULHO AGOSTO ETEMBRO NOVEMBRO 


ESTADO 


OBS. Fim do 
período em 30/10 


PARAGUAI | Fim do período em 30/08 


PA (1): Microrregiões de Conceição do Araguaia, Redenção, Marabá, São Felix do Xingu, Parauapebas, Itaituba (exceto Rurópolis e Trairão) e Altamira (Distritos de Castelo dos Sonhos 
e Cachoeira da Serra). PA (2): Microrregiões de Paragominas, Bragantina, Guamá, Tomé-Açu, Salgado, Tucuruí, Castanhal, Arari, Belém, Cametá, Furos de Breves e de Portel 
PA (3): Microrregiões de Santarém, Almeirim, Óbidos, Itaituba (Rurópolis e Trairão) e Altamira (exceto Distritos de Castelo dos Sonhos e Cachoeira da Serra). 


MA(1): Região Produtiva | - Microrregiões: Alto Mearim e Grajaú, Chapadas do Alto Itapecuru, Chapada das Mangabeiras, Gerais de Balsas, Imperatriz, Porto Franco 
MA(2): Região Produtiva Il - Microrregiões: Aglomeração Urbana de São Luís, Baixada Maranhense, Baixo Paraíba Maranhense, Caxias, Chapadinha, Codó, Coelho Neto, Gurupi, 
Itapecuru Mirim, Lençóis Maranhenses, Litoral Ocidental Maranhense, Médio Mearim, Pindaré, Presidente Dutra, Rosário. 


Figura 8 — Calendarização da semeadura da soja. 


Fonte: Embrapa (2017b). 


O arranjo espacial de plantas de soja, ou seja, a forma como as plantas são 
dispostas na área, também pode influenciar diretamente nos resultados de produtividade e 
na incidência de doenças e pragas. Esse arranjo é definido pela densidade de semeadura 
(plantas por hectare), pelo espaçamento entre as fileiras e pela uniformidade de distribuição 
de plantas dentro dessas fileiras. O uso de cultivares de soja com crescimento indeterminado 
e arquitetura compacta de plantas tem aumentado nos últimos anos, estimulando a 
avaliação de arranjos alternativos, como a semeadura cruzada, a semeadura em covas 
com sementes agrupadas, a fileira dupla (duas linhas espaçadas de 20 cm, seguido de um 
espaçamento de 60 cm, retomando com duas linhas de 20 cm) e o espaçamento reduzido 
(20 a 30 cm entre fileiras). Estudos indicam que o arranjo com melhor resultado para soja 
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de crescimento indeterminado é o de espaçamento entre 40 e 50 cm de distância entre as 
linhas, com taxa de semeadura variável, dependendo da cultivar selecionada e da época 
de semeadura. O arranjo pode alterar o crescimento da cultura, a incidência de estresses 
bióticos (plantas invasoras, pragas e doenças) e abióticos (déficit hídrico, por exemplo), 
a qualidade das pulverizações, o acamamento e, consequentemente, a produtividade e 
qualidade dos grãos (EMBRAPA, 2017a). 

Embora o ajuste do espaçamento possa conferir ganhos expressivos de 
produtividade, sem grandes alterações nos custos de produção e nos impactos ambientais, 
geralmente há maior dificuldade de manejo de algumas doenças e pragas com a redução 
do espaçamento. Isso ocorre em razão do fechamento rápido das entrelinhas e da menor 
penetração da radiação solar e dos defensivos agrícolas em lavouras com espaçamento 
reduzido. Além disso, a redução do espaçamento na soja impossibilita o uso da mesma 
semeadora para o plantio do milho sem que haja necessidade de reposicionamento das 
linhas. Por outro lado, em alguns experimentos, ocorreram ganhos de produtividade com 
o uso do espaçamento reduzido. Esses resultados foram obtidos com o uso de cultivares 
com plantas compacta (altura inferior a 80 cm), com pouca ramificação e ciclo precoce 
(inferior a 110 dias entre a semeadura e a colheita) (EMBRAPA, 2017a). 

Os ganhos de produtividade agrícola também são suscetíveis à influência de 
fatores naturais, como clima, solo, pluviosidade, hidrografia, vegetação e relevo. O avanço 
das tecnologias nas últimas décadas tem diminuído a influência desses fatores naturais 
com a adoção de técnicas agrícolas como: plantio direto, rotação de culturas, cultivares 
resistentes, controle químico e biológico, tratamento de sementes, irrigação e fertilização 
do solo, possibilitando aumentar a produtividade e a lucratividade nas últimas safras 
(CONAB, 2019). 

Um novo paradigma que vem sendo utilizado nos campos de cultivo para aumentar 
a produção de alimentos e reduzir o impacto ambiental é a Agricultura de Precisão “um 
sistema de gerenciamento agrícola baseado na variação espacial e temporal da unidade 
produtiva e visa ao aumento de retorno econômico, à sustentabilidade e à minimização 
do efeito ao ambiente” (MAPA, 2012). As tecnologias de Agricultura de Precisão estão 
difundindo progressivamente o conhecimento da variabilidade espacial das unidades 
produtivas em todos os seus aspectos, devido às variações de produtividade, solo, relevo, 
vegetação e também do histórico de uso. Estas diferenças fazem com que produtores e 
técnicos tratem cada região da lavoura de modo diferenciado, realocando insumos para 
que sejam diminuídos os desequilíbrios de acordo com as necessidades e potencialidades 
de cada área. Técnicas de sensoriamento remoto, onde as informações da lavoura são 
obtidas de forma não-destrutiva, rápida e por vezes à distância (satélite, avião ou VANT), 
têm sido fundamentais na obtenção e tratamento dos dados de campo. A radiometria 
espectral é capaz de identificar a intensidade com que cada material, seja um tipo de solo, 
de rocha ou de vegetação, reflete a radiação eletromagnética em diferentes comprimentos 
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de onda do espectro. Assim, dados da refletância tem sido associados às características 
das plantas, como o índice da área foliar, biomassa, porcentagem de cobertura do solo, 
atividade fotossintética e estresse hídrico (BERNARDI et al., 2014). 

Na agricultura, as propriedades da refletância em cada faixa do espectro 
eletromagnético podem ser melhor avaliadas através de combinações matemáticas 
de diferentes bandas espectrais. Essas transformações são medidas da atividade da 
vegetação, especialmente na região do visível e do infravermelho próximo (NIR - Near 
Infrared), e são denominadas de índices de vegetação. A escolha do índice de vegetação 
mais adequado está relacionada às características que se deseja avaliar. Com base 
nos índices de vegetação, os insumos (corretivos, fertilizantes e defensivos) podem ser 
aplicados em taxas variáveis nos pontos localizados com problemas, com o uso de arquivos 
de dados geoespaciais construídos na forma de mapas de recomendação de aplicação 
(p. ex. shapefile'), exportados para o maquinário agrícola que utiliza automação baseada 
em um sistema de posicionamento global (GPS). As tecnologias disponíveis indicam que 
há potencial para gerar sistemas de recomendação de aplicação de insumos de forma 
mais eficiente, com alta probabilidade de retorno econômico e baixo impacto ambiental 
(BERNARDI et al., 2014). 

Inovações tecnológicas como Veículos Aéreos não Tripulados (VANT) têm 
revolucionado a produção de alimentos no campo. Na agricultura de precisão, o uso de VANT 
tem ajudado no mapeamento/monitoramento do cultivo/colheita de propriedades agrícolas 
de todos os tamanhos, o que tem contribuído com o aumento da produção de alimentos e a 
redução dos custos de produção. VANT equipados com câmeras de alta resolução espacial 
são capazes de sobrevoar uma plantação a poucos metros de distância e capturar imagens 
RGB em alta resolução. Imagem RGB é a abreviatura de um sistema de cores aditivas em 
que o Vermelho (Red), o Verde (Green) e o Azul (Blue) são combinados para reproduzir um 
largo espectro cromático. Esse sistema de cores possui a vantagem de ser reproduzido em 
vários dispositivos eletrônicos como, monitores de TV e computador, celulares e câmeras 
digitais, assim como na fotografia tradicional. Sensores RGB geralmente são mais baratos 
do que os sensores multi-hiperespectrais, podendo ser empregados em larga escala no 
mercado eletrônico. Além disso, sensores multi-hiperespectrais tem sido propostos para 
capturar imagens do campo em regiões espectrais específicas que podem variar de acordo 
com as características espectrais dos alvos e do ambiente. Já as imagens RGB oferecem 
uma imagem colorida com melhor resolução espacial. 

Os VANT também podem ser programados para executar operações de plano de 
voo automático, com autonomia superior a 1 hora dependendo do modelo, cobrindo áreas 
médias que podem ultrapassar 1.000 hectares por voo, possibilitando realizar inspeções 
regulares em grandes áreas e operações com maior periodicidade no acompanhamento 


1 Shapefile são arquivos de dados geoespaciais em forma de vetor utilizados para descrever geometrias, como pontos, 
linhas e polígonos. 
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de toda a safra. Inspeções regulares com o VANT são imunes à presença de nuvens, o 
que pode encobrir, total ou parcialmente, características visuais importantes dos alvos. O 
trabalho realizado com o levantamento aéreo viabiliza a construção de um banco de dados 
da propriedade (p. ex. histórico de produção, falhas de plantio, fertilidade do terreno, análise 
de biomassa, identificação de plantas infestantes, doenças e pragas, etc) que auxilia na 
execução de estratégias futuras. Desse modo, o uso de VANT em campos de cultivo tem 
sido considerado um importante instrumento para identificar manchas de doenças foliares 
e pragas na soja, permitindo que agricultores e especialistas tomem melhores decisões de 
manejo. 

Abordagens de aprendizagem de máquina tem sido cada vez mais usadas para 
extrair padrões e conhecimento de dados geoespaciais. Essas abordagens permitem 
construir um modelo capaz de generalizar novos exemplos depois de ter experimentado 
um conjunto de dados de aprendizado considerado representativo dentro do espaço de 
ocorrência. Abordagens de aprendizagem de máquina, como árvores de decisão, máquinas 
de vetores de suporte, redes bayesianas e aprendizagem profunda, têm sido estudadas 
para modelar diferentes tarefas relacionadas à classificação, regressão, agrupamento, 
entre outras. 

As tarefas de aprendizagem de máquina são tipicamente classificadas em três 
categorias, de acordo com a natureza da aprendizagem: aprendizagem supervisionada, 
aprendizagem não supervisionada e aprendizagem por reforço. Na aprendizagem 
supervisionada, um algoritmo aprende a relação de entrada-para-saída após fornecer 
as entradas e as respectivas saídas. Por exemplo, a entrada pode ser um conjunto de 
imagens e a saída pode ser um conjunto de rótulos correspondentes. Na aprendizagem não 
supervisionada, o algoritmo não tem acesso à saída, portanto, o objetivo é inferir a estrutura 
subjacente dos dados. Por exemplo, o algoritmo poderia separar automaticamente imagens 
com diferentes propriedades estatísticas ou semânticas. Na aprendizagem por reforço, um 
algoritmo interage com um ambiente dinâmico em que deve desempenhar determinado 
objetivo, sendo fornecido ao algoritmo uma realimentação dos acertos e erros na medida 
em que é navegado o espaço do problema. Entre a aprendizagem supervisionada e a 
não supervisionada, está a aprendizagem semi supervisionada, quando uma quantidade 
de exemplos não rotulados é fornecida junto com um conjunto de exemplos rotulados 
(REICHSTEIN et al., 2019). 

Aaprendizagem profunda, doinglês deep learning, refere-seamodelos computacionais 
compostos por múltiplas camadas de processamento que aprendem representações de 
dados com múltiplos níveis de abstração. Esses métodos melhoraram consideravelmente 
o estado da arte no reconhecimento da fala (HINTON et al., 2012), reconhecimento de 
objetos visuais (WANG; YEUNG, 2013), detecção de objetos (GIRSHICK et al., 2014), 
segmentação (LONG; SHELHAMER; DARRELL, 2014), classificação de vídeo (KARPATHY 
et al., 2014) e muitos outros domínios. A aprendizagem profunda é capaz de descobrir a 
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estrutura complexa em grandes conjuntos de dados usando o algoritmo backpropagation 
para indicar como uma máquina deve mudar seus parâmetros internos que são usados 
para calcular a representação em cada camada da representação na camada anterior 
(LECUN; BENGIO; HINTON, 2015). Diversas arquiteturas de aprendizagem profunda foram 
propostas na última década para a classificação de imagens em conjunto de dados públicos, 
como PASCAL VOC, Caffe e ImageNet (IMAGENET, 2016). Essas arquiteturas geralmente 
são avaliadas e comparadas em cima desses conjuntos de dados e concentram-se em 
encontrar redes neurais convolucionais de maior desempenho. As melhorias na qualidade 
da arquitetura da rede geralmente transferem os ganhos de desempenho significativos 
para uma ampla variedade de domínios de aplicação que dependem cada vez mais de 
recursos visuais aprendidos de alta qualidade. Particularmente, estamos interessados em 
arquiteturas do estado da arte que sejam capazes em reconhecer diferentes espécies de 
doenças e pragas presentes na cultura da soja. 

Na literatura, existem vários trabalhos comparando sensores de imagem e métodos 
de aprendizagem de máquina para identificar doenças em plantas e o ataque de pragas 
em diferentes culturas. No entanto, poucos deles abordam o uso de imagens coletadas 
por VANT para identificação de doenças e pragas na soja. A Tabela 3 resume os artigos 
pesquisados em revisão sistemática para identificação de doenças e pragas em diferentes 
culturas, relacionando: autor, grupo, cultura, local, dispositivo de aquisição de imagem e 
método de aprendizagem de máquina. 


Autor Grupo Cultura Local Dispositivo Método 

Tetila et al. (2019) Doenças Soja Brasil VANT RNA 
Adhikari et al. (2018) Doenças Tomate Nepal Câmera RNA 

' Índices de 

Lu et al. (2018) Doenças Tomate EUA Câmera vegetação 
Ferentinos (2018) Doenças Diversas Grécia Câmera RNA 

Doenças, * 

Fuentes et al. (2017) Pragas Tomate Korea Câmera RNA 

Tetila et al. (2017) Doenças Soja Brasil VANT SVM, k-NN 

l Du Índices de 

Bajwa et al. (2017) Doenças Soja EUA Espectroscópico vegetação 

. Indices de 

Brodbeck et al. (2017) Doenças Soja EUA VANT vegetação 

Pires et al. (2016) Doenças Soja Brasil Scanner Descritores locais 
Mohanty et al. (2016) Doenças Diversas Suíça Smartphone RNA 
Sladojevic et al. (2016) Doenças Diversas Sérvia Câmera RNA 
Gui et al. (2015) Doenças Soja China Câmera k-means 
Pujari et al. (2014) Doenças Diversas Índia Câmera RNA 
Shrivastava e Hooda Doenças Soja Índia Smartphone k-NN 
(2014) 
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Tan et al. (2014) Doenças Soja China Câmera CCD RNA 
Garcia-Ruiz et al. (2013) Doenças Citros EUA VANT SVM 
Rumpf et al. (2010) Doenças Beterraba Alemanha Clorofila SVM 
Akintayo et al. (2018) Pragas Soja EUA Microscópio RNA 
Chen et al. (2018) Pragas Soja China Câmera RNA 
Maharlooei et al. (2017) Pragas Soja Iran Câmera Limiarização 
Gedeon et al. (2017) Pragas Diversas Hungria no Infravermelho 
Yang, Bao e Liu (2017) Pragas di ae China Câmera RNA 
Leow et al. (2015) Pragas mi Japão Microscópio RNA 
Wen et al. (2015) Pragas Laboratório EUA Câmera RNA 
Ma et al. (2014) Pragas Soja China Hiperespectral Fuzzy, SVM 
Chelladurai et al. (2014) Pragas Soja Canadá Fluoroscopia ga 
Barbedo (2014) Pragas Soja Brasil Câmera Limiarização 
Vakilian e Massah (2013) Pragas Soja Iran Câmera CCD RNA 
Wang et al. (2012) Pragas Diversas China Câmera RNA, SVM 
Yaakob e Jain (2012) Pragas Rca Malásia Câmera RNA 
Al-Sager e Hassan Pragas Palmeiras Arábia Câmera RNA 


(2011) 


Tabela 3 — Resumo dos artigos pesquisados em revisão sistemática. 


Fonte: Produzido pelo autor. 


As demandas atuais de eficiência econômica e ambiental da agricultura moderna 
indicam a necessidade de incorporar novos sistemas inteligentes de automação e manejo 
capazes de processar os dados coletados em campo para o monitoramento preciso das 
lavouras. O monitoramento viabiliza a aplicação de insumos em taxas variadas, orientando 
a gestão dos sistemas agrícolas, em harmonia com as questões ambientais. Além disso, 
possibilita aumentar a produção de alimentos no campo para atender o crescimento da 
população mundial. Espera-se que a adoção desses sistemas inteligentes se torne mais 
comum, eficiente e sustentável do que os sistemas atuais usados em gerenciamento de 
lavouras. 

Neste trabalho propomos criar uma abordagem de visão computacional que seja 
capaz de identificar doenças e pragas da soja em um ambiente de campo real, sob 
diferentes condições de iluminação, tamanho de objeto e variações de fundo, usando 
imagens RGB de alta resolução. Queremos entregar para o produtor uma solução 
computacional que seja capaz de indicar quais as áreas da plantação sofreram ataques 
de patógenos (doenças) e pragas em níveis de ação de controle. Por consequência, 
este trabalho trará contribuições para o setor agropecuário e para o desenvolvimento 
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local, uma vez que a região será beneficiada com o desenvolvimento de uma importante 
solução computacional que poderá (1) impulsionar um dos principais setores econômicos, 
reduzindo a quantidade de aplicações de defensivos agrícolas nos campos de soja; (2) 
contribuir com o desenvolvimento social, gerando novas vagas de trabalhos de mão de 
obra especializada com a adoção de novas tecnologias; (3) reduzir o impacto ambiental 
causado pelo uso excedente de defensivos agrícolas utilizado em toda a plantação a uma 
taxa uniforme; (4) auxiliar na questão da segurança alimentar e bem-estar social por meio 
de uma abordagem baseada em alternativas ecologicamente corretas; (5) e contribuir com 
as políticas nacionais de ciência, tecnologia e inovação com base no Registro do Programa 
de Computador PYNOVISÃO, protocolado pelo Instituto Nacional da Propriedade Industrial 
(INPI), Processo N : BR512019000427-2, disponível em (PYNOVISÃO, 2019). 


21 OBJETIVOS 


2.1 Objetivo Geral 


Criar uma abordagem de visão computacional que seja capaz de identificar doenças 
e pragas da soja em um ambiente de campo real, sob diferentes condições de iluminação, 
tamanho de objeto e variações de fundo. Para tal propósito, serão implementadas e 
avaliadas diferentes técnicas rasas (SVM, k-NN, Naive Bayes, J48, AdaBoost e Random 
Forest) e profundas (Inception-V3, Resnet-50, VGG-16, VGG-19, Xception, Inception- 
Resnet-v2 e DenseNet-201) de aprendizagem de máquina. As imagens capturadas pelo 
VANT serão submetidas à tarefa de classificação de doenças foliares e espécies de insetos 
encontrados na soja. Diferentes métricas, como taxa de classificação correta (TCC), 
medida-F, área sob a curva ROC e tempo para criar o modelo de classificação serão 
usadas para avaliar o desempenho dos classificadores e verificar se os algoritmos testados 
diferem estatisticamente em relação ao desempenho. Na etapa de pós-processamento, o 
sistema de visão computacional deverá gerar um mapa colorido fornecendo uma classe 
de cada problema (doença ou inseto-praga) por segmento; a soma dos segmentos das 
categorias de cada problema, ao classificar os segmentos de uma imagem da plantação, 
deverá apresentar ao produtor o nível de infestação de cada região do campo para um 


manejo mais eficiente de defensivos agrícolas. 
2.2 Objetivos Específicos 
Para atingir o objetivo geral, são propostos os seguintes objetivos específicos: 


* | Determinar os parâmetros tecnológicos de voo do VANT, como a altura ideal 
recomendada para a identificação de doenças da soja e o limite de altura mais 
baixo; 


* Verificar se ao catalogar novas doenças da soja e aumentar a quantidade de 
classes ao dobro existe evidência de diferença significativa da taxa de classifi- 
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cação correta em relação aos classificadores comparados; 


* Definir o melhor classificador para o reconhecimento de doenças e quais atribu- 
tos visuais levam a maiores taxas de classificação correta; 


*— Avaliar modelos de aprendizagem profunda reconhecidos da literatura, usando 
imagens capturadas pelo VANT com a altura ideal recomendada para a identi- 
ficação de doenças. Em seguida, comparar os resultados de desempenho dos 
modelos de aprendizagem profunda com outras técnicas tradicionais da área; 


* Avaliar diferentes estratégias de treinamento para os modelos de aprendizagem 
profunda, como ajuste fino, transferência de aprendizagem e inicialização de 
pesos aleatórios, apropriadas para os problemas abordados; 


* Avaliar modelos de aprendizagem profunda reconhecidos da literatura, treina- 
dos com diferentes parâmetros de ajuste fino e transferência de aprendizagem, 
para as tarefas de classificação e contagem de insetos-praga da soja. 


31 METODOLOGIA 


Na tarefa de classificação de doenças da soja, diversos testes foram realizados para 
encontrar o melhor desempenho das abordagens propostas, de acordo com as alturas de 
voo estipuladas para o VANT, variando de 1 a 16 metros. As imagens da plantação foram 
coletadas em dias, locais e condições climáticas diferentes, entre os estádios fenológicos 
Ri e R6, considerados de grande ocorrência de doenças e pragas na soja. Para identificar 
as manchas de doenças foliares e os insetos na soja, cada imagem capturada pelo VANT 
foi segmentada usando o método de segmentação SLIC Superpixels, e assim, as folhas 
das plantas foram usadas como amostras de imagens para diferentes classes de doenças e 
insetos, tais como, Ferrugem asiática, Mancha-alvo e Percevejo marrom, Lagarta-da-soja. 

Com apoio de um engenheiro agrônomo responsável técnico, cada imagem foi 
anotada para construir o conjunto de dados de imagem. Depois, o modelo de aprendizagem 
de máquina foi treinado para a tarefa de classificação de imagens de doenças e pragas da 
soja. Diferentes métodos de extração de atributos visuais foram testados para descrever 
as características de propriedades físicas da folha, como cor, gradiente, textura e forma. 
Igualmente, diversas técnicas de classificação conhecidas da literatura especializada 
tiveram os desempenhos avaliados experimentalmente para revelar quais técnicas obtém 
o melhor desempenho para o reconhecimento automático de doenças e pragas na soja. 

Para o treinamento e teste dos classificadores foi usada uma validação cruzada de 10 
dobras estratificada. Neste esquema, as imagens do conjunto de dados são particionadas 
em 10 dobras, garantindo que cada dobra tenha a mesma proporção de cada classe. Em 
seguida, uma dobra é usada para teste, enquanto as dobras restantes são usadas para 
treinar o classificador. O processo é repetido 10 vezes usando cada dobra exatamente uma 
vez para o teste. Finalmente, o desempenho da métrica é dado pela média das 10 rodadas. 
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Para cada modelo de aprendizagem de máquina, nós calculamos os desempenhos médios 
das métricas: taxa de classificação correta, tempo de processamento, medida-F e área sob 
a curva ROC. 

Os algoritmos usados nos experimentos foram avaliados estatisticamente em 
relação ao desempenho com o teste de hipóteses ANOVA, considerando-se cada uma das 
métricas avaliadas e o conjunto de dados de imagem. ANOVA, ou análise de variância, 
é uma técnica estatística que permite verificar se existe uma diferença significativa entre 
as médias de populações. A análise de variância é utilizada quando se quer decidir se 
as diferenças amostrais observadas são reais (causadas por diferenças significativas 
nas populações observadas) ou casuais (decorrentes da mera variabilidade amostral). 
Portanto, essa análise parte do pressuposto que o acaso só produz pequenos desvios, 
sendo as grandes diferenças geradas por causas reais (MILONE, 2003). Nos experimentos, 
relatamos os valores-p encontrados para cada métrica e usamos um nível de significância 
de 5% para descartar a hipótese nula. Os valores-p foram analisados com o pós-teste de 
Tukey para comparação das variáveis entre os grupos. 

Também usamos o diagrama de caixa (boxplot) para analisar e comparar a dispersão 
das variáveis observadas por meio de quartis entre os diferentes grupos de dados. Os 
espaços entre as diferentes partes da caixa (onde estão localizados 50% dos valores 
mais prováveis) indicam o grau de dispersão com a mediana em destaque, a obliquidade 
(medida da assimetria de uma distribuição) nos dados e os outliers (valores extremos). O 
teste de hipóteses ANOVA e o diagrama de caixa (boxplot) foram analisados no software 
estatístico RStudio, versão 1.0.136. 

As Seções Materiais e Métodos dos Capítulos 2, 3, 4, 5 e 6 descrevem com maiores 
detalhes o objeto de estudo, o delineamento da pesquisa, os procedimentos utilizados 
(coleta de dados, variáveis analisadas, avaliações realizadas, etc) e os testes estatísticos 
utilizados na análise dos dados. 


41 ESTRUTURA DO TRABALHO 


Este trabalho está organizado em formato de múltiplos artigos, dividido em sete 
capítulos. 

O Capítulo 2 apresenta um artigo publicado na revista [EEE Geoscience and Remote 
Sensing Letters (Fator de Impacto: 3.534) com uma abordagem proposta baseada no 
método de segmentação SLIC para identificar doenças foliares da soja usando VANT. Os 
experimentos sustentaram a hipótese de nossa abordagem que as alturas mais próximas 
entre o VANT e a planta apresentam maiores taxas de classificação, alcançando 98,34% 
na identificação da doença foliar utilizando alturas entre 1 e 2 m, com decaimento de 
aproximadamente 2% a cada metro. 

O Capítulo 3 mostra um artigo publicado no Workshop de Visão Computacional e 
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introduz a mesma proposta baseada no método SLIC, no entanto, novas doenças foram 
catalogadas aumentando o número de 3 para 6 classes, no intuito de avaliar o potencial da 
abordagem proposta para múltiplas classes — artigo este que foi premiado como o melhor 
artigo do evento (best paper award — ANEXO A). Resultados experimentais mostraram 
que não existe evidência de diferença significativa da taxa de classificação correta, em 
relação aos classificadores comparados, ao catalogar novas doenças da soja e aumentar 
a quantidade de classes ao dobro. 

O Capítulo 4 é um artigo publicado na revista IEEE Geoscience and Remote Sensing 
Letters que compara o desempenho de quatro modelos de aprendizagem profunda para a 
tarefa de reconhecimento de doenças foliares da soja. Resultados experimentais mostraram 
que os modelos de aprendizagem profunda levam a altas taxas de classificação, atingindo 
uma acurácia de até 99,04%. Também demonstramos como um modelo de aprendizagem 
profunda pode ser implementado em um sistema de visão computacional para operar em 
um ambiente de campo real, sob diferentes condições de iluminação, tamanho do objeto e 
variações de fundo. 

O Capítulo 5 compara o desempenho de cinco arquiteturas de aprendizagem 
profunda com outras técnicas de aprendizagem de máquina para a tarefa de detecção 
e classificação de pragas da soja. Recentemente, este artigo foi publicado na revista 
Computer and Electronics in Agriculture (Fator de Impacto: 3.171). 

O Capítulo 6 propõe uma nova abordagem para contagem automática de pragas da 
soja no campo. Neste artigo foi demonstrado como um modelo de aprendizagem profunda 
pode ser implementado no sistema de visão computacional PYNOVISÃO (ANEXO B) para 
a contagem de insetos-praga e calcular o nível de infestação de uma área de cultivo. Este 
artigo foi publicado na revista [EEE Geoscience and Remote Sensing Letters e também foi 
o vencedor do Prêmio Mercosul de Ciência e Tecnologia 2018 na categoria Pesquisador 
Sênior (ANEXO C). 

No Capítulo 7 são descritas as conclusões e os trabalhos futuros, articulando os 
resultados mostrados em cada um dos cinco artigos apresentados. Desta maneira, a partir 
dos aportes teóricos e dos experimentos realizados, os resultados de desempenho das 
técnicas rasas e profundas são apresentados para os problemas abordados e finalizamos 
com apontamentos para estudos futuros. 


Capítulo 1 


28 


CAPÍTULO 2 - IDENTIFICAÇÃO DE DOENÇAS FOLIARES 
DA SOJA USANDO IMAGENS DE VEÍCULO AÉREO NÃO 
TRIPULADO 


Everton Castelão Tetila 

Bruno Brandoli Machado 

Nícolas Alessandro de Souza Belete 
David Augusto Guimarães 


Hemerson Pistori 


RESUMO: A soja tem sido a principal commodity agrícola brasileira, contribuindo 
substancialmente para a balança comercial do país. Apesar disso, doenças foliares são 
fatores-chave que podem prejudicar a produção de soja, geralmente causadas por fungos, 
bactérias, vírus e nematoides. Este artigo propõe um sistema de visão computacional 
para monitorar as doenças foliares da soja no campo, usando imagens capturadas por um 
VANT de baixo custo, modelo DJI Phantom 3. O sistema proposto baseia-se no método 
de segmentação Simples Linear lIterativo Clustering para detectar as folhas de plantas nas 
imagens e atributos visuais para descrever as características de propriedades físicas da folha, 
como cor, gradiente, textura e forma. O desempenho de seis classificadores foi avaliado para 
diferentes alturas, incluindo 1, 2, 4, 8 e 16 metros. Os resultados experimentais mostraram 
que os atributos de cor e textura levam a taxas de classificação mais altas, atingindo a 
precisão de 98,34% para alturas entre 1 e 2 metros, com um decaimento médio de 2% a 
cada metro. Os resultados indicam que a abordagem proposta pode apoiar especialistas e 
agricultores no monitoramento de doenças nos campos de soja. 

PALAVRAS-CHAVE: Imagens aéreas, proteção de culturas de precisão, doenças foliares da 
soja, sensoriamento remoto baseado em veículo aéreo não tripulado (VANT). 


11 INTRODUÇÃO 


A soja (Glycine max) tem sido a principal commodity agrícola brasileira, com 
importante participação econômica na balança comercial do país. Apesar dos resultados 
satisfatórios, muitas doenças — causadas por fungos, bactérias, vírus e nematoides — têm 
atacado consideravelmente as culturas de soja em diferentes estados. O diagnóstico 
precoce de doenças é bastante importante para o manejo de pesticidas na cultura e, 
consequentemente, pode reduzir o impacto ambiental de agroquímicos e os prejuízos 
econômicos. 

O controle de pragas geralmente consiste em tomar decisões com base no nível 
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de infestação e no estádio de desenvolvimento da planta de soja. No entanto, essas 
informações são obtidas com inspeções regulares por amostragem de diferentes regiões 
da lavoura e a inspeção é realizada visualmente a partir do solo [1]. Além disso, o alto custo 
de produtos químicos associados a ações de baixo impacto ecológico levam a melhores 
práticas da agricultura de precisão. Assim, o uso de VANTs em campos de cultivo tem sido 
considerado um importante instrumento para identificar manchas de doenças, permitindo 
que especialistas e agricultores tomem melhores decisões de manejo. 

Neste artigo, um sistema de visão computacional foi proposto para identificar 
automaticamente doenças foliares da soja, a partir de imagens aéreas capturadas por um 
modelo de VANT de baixo custo bastante conhecido no mercado, denominado DJI Phantom 
3. Inicialmente, considerou-se um passo de segmentação de imagem para detectar as 
folhas das plantas nas imagens obtidas durante a inspeção de voo. Em seguida, as folhas 
foram descritas usando características visuais, incluindo cor, gradiente, textura e forma. 
Depois, seis classificadores bem conhecidos da literatura foram avaliados para cinco 
alturas diferentes. A abordagem proposta foi testada usando um conjunto de dados com 
3.624 imagens divididas em três classes: mancha-alvo, oídio e sem doença. Por fim, os 
resultados experimentais foram comparados com descritores locais usando as imagens de 
VANT. 

Este artigo está organizado da seguinte forma. A Seção Il apresenta os trabalhos 
relacionados. A abordagem proposta para identificar as doenças foliares da soja está 
descrita na Seção III. A Seção IV relata os materiais e métodos adotados nesta pesquisa. A 
Seção V mostra os resultados experimentais, seguido por uma breve discussão. Conclusões 
e trabalhos futuros são apresentados na Seção VI. 


21 TRABALHOS RELACIONADOS 


Aaplicação de sensoriamento remoto baseado em VANT aumentou as oportunidades 
de proteção das culturas de precisão, incluindo detecção, monitoramento e identificação de 
ervas daninhas e doenças de plantas. A visão computacional e os métodos de aprendizagem 
de máquina desempenham um papel importante na medição automática e classificação das 
imagens remotas. Na literatura, existem várias revisões que comparam diferentes sensores 
de imagem [2] e algoritmos de aprendizagem de máquina [3], [4] para identificar doenças 
de plantas em diferentes culturas. No entanto, poucos deles abordam o uso de imagens 
coletadas de VANTs para identificação de doenças de soja. 

Neste contexto, usando imagens digitalizadas individuais, Pires et al. [5] propuseram 
um método para identificar doenças foliares de soja com base em descritores locais e 
histograma de palavras visuais. [6] relataram um método para a detecção de folhas de 
soja com base em regiões salientes e agrupamento k-means. [7] propuseram um método 


para detectar mancha marrom e olho-de-rã, duas doenças foliares de soja comuns, usando 
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características de forma e classificação de k-vizinhos mais próximos; as imagens foram 
registradas com smartphones. 

Estudos recentes sobre proteção de culturas, usando imagens obtidas a partir de 
sensoriamento remoto baseado em VANT e algoritmos de aprendizagem de máquina foram 
propostos para identificar doenças em cítricos [8], detectar ervas daninhas em trigo [9] 
e também em milho [10]. Da mesma forma, Sanchez et al. [11] propuseram um método 
baseado em imagens de VANT para a identificação de ervas daninhas, e [12] apresentaram 
uma estratégia de aprendizagem de máquinas para o monitoramento de ervas daninhas. 
Em [13], os autores usaram uma detecção remota com imagens do espectro visível e 
infravermelho próximo (NIR) para detectar duas doenças de soja, incluindo o nemátodo de 
cisto e a síndrome da morte súbita. Yuan et al. [14] utilizou recentemente VANTSs para medir 
o índice da área foliar da soja. 


31 ABORDAGEM PROPOSTA 


Nesta seção, introduzimos uma abordagem de visão computacional para identificar 
doenças foliares da soja através de imagens de VANT. A abordagem proposta adota o 
algoritmo SLIC Superpixels, proposto por Achanta et al. [15], para detectar as folhas 
das plantas nas imagens. O algoritmo SLIC foi escolhido porque é mais rápido com 
complexidade linear, mais eficiente em termos de memória que outros métodos baseados 
em superpixels e produz adesão do estado da arte aos limites da imagem, o que supera os 
métodos existentes quando usados para a segmentação de imagens. 

O método SLIC emprega o algoritmo k-means para a geração de regiões, chamadas 
superpixels. O parâmetro K do algoritmo refere-se ao número de superpixels na imagem e 
permite controlar a forma e o tamanho dos superpixels. Aqui, ajustamos o parâmetro k para 
melhor segmentar as folhas das plantas de soja. 

O algoritmo SLIC superpixel agrupa pixels de acordo com a cor dos pixels usando os 
componentes CIELAB, L, a, b, bem como as coordenadas x e y dos pixels. Uma imagem de 
entrada é segmentada em regiões retangulares, definindo o número k de superpixels com 
aproximadamente pixels, onde N é o número de pixels da imagem. Cada região compõe 
um superpixel inicial de dimensões S x S, onde S = E Os centros dos agrupamentos de 
superpixel C, = [),; à; D,; X,; Y] com k = [1; K são escolhidos, espaçados em uma matriz 
regular para formar os agrupamentos de tamanho aproximado S2. Os centros são movidos 
para o valor de menor gradiente sobre uma vizinhança de 3x3 pixels, evitando a alocação 
de centroides nas regiões de borda que tenham pixels ruidosos. Em vez de usar uma norma 
euclidiana simples no espaço 5D, uma medida de distância D, é definida da seguinte forma: 


Capítulo 2 


31 


diab = (ly- lj)? + (ap- aj)? + (by- bj)? (1) 
day = (Xp x)? + (Ok Yi)? (2) 


Ds =diab + = + dy (3) 


onde D, é a soma da distância d,, 


(Equação 1) e a distância 20 (Equação 2), 
normalizada pelo intervalo S. O parâmetro m corresponde ao controle de compactação 
de superpixel; quanto maior o seu valor, mais compacto é o agrupamento em termos de 
proximidade espacial. Cada pixel da imagem é associado ao centroide mais próximo e, 
depois de todos os pixels estarem associados a um centroide, um novo centro é calculado 
com o vector Labxy de todos os superpixels pertencentes ao grupo. No final do processo, 
alguns pixels podem estar conectados a um grupo incorretamente, então o algoritmo 
reforça a conectividade na última etapa, atribuindo os pixels sozinhos aos maiores grupos 
vizinhos [15]. 

Um diagrama esquemático do sistema proposto é mostrado na Figura 2.1. Ela ilustra 
a metodologia que consiste de cinco etapas: (a) aquisição de imagem, (b) segmentação 
SLIC, (c) conjunto de dados de imagem, (d) extração de atributos e, finalmente, (e) 
classificação de doenças foliares. Inicialmente, a inspeção de voo foi conduzida com o 
VANT nos campos de soja para capturar imagens da plantação em diferentes alturas 
(ver passo (a) na Figura 2.1). Essas imagens foram segmentadas usando o método SLIC 
superpixels. Cada segmento de superpixel foi classificado visualmente em uma classe 
específica: mancha-alvo, oídio ou amostras de folhas saudáveis. 

Após a segmentação da imagem com o método SLIC, os segmentos de folhas 
pertencentes a uma determinada classe foram analisados visualmente por um agrônomo 
para construir um conjunto de dados de imagem para treinamento e teste do sistema, 
ver etapa (c) da Figura 2.1. Neste caso, o agrônomo foi responsável por avaliar a 
representatividade das amostras para a análise estatística. Posteriormente, as imagens 
foram descritas como características baseadas na cor, gradiente, textura e forma (ver 
passo (d) da Figura 2.1). O passo final mostra uma imagem de teste avaliada pelo nosso 
sistema de visão computacional. O resultado da porcentagem de cada classe é mostrado 
na captura de tela do sistema proposto. 
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Figura 2.1 — Sistema de visão computacional proposto para identificar doenças foliares da soja com 
imagens de VANT. (a) Aquisição de imagem. (b) segmentação SLIC. (c) Conjunto de dados de imagem. 
(d) Extração de atributos. (e) Classificação de imagem de doenças. 
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41 MATERIAIS E MÉTODOS 


A. Delineamento Experimental 


Para os experimentos, vários testes foram realizados para encontrar a taxa de 
classificação de doença foliar mais alta, de acordo com as alturas especificadas no VANT, 
incluindo 1, 2, 4, 8e 16 metros. Para este fim, as imagens foram capturadas a partir de um 
campo experimental de soja, mostrado na Figura 2.2(a). As imagens foram coletadas em 
dias e condições climáticas diferentes. Uma quantidade total de 300 imagens aéreas foi 
tomada na safra Setembro/2016-Fevereiro/2017. Para identificar as doenças das plantas 
nas imagens, cada imagem foi segmentada usando o método baseado em superpixels, 
de acordo com o parâmetro k que melhor ajusta a detecção das folhas da planta. O 
valor de k foi configurado para dividir as imagens da planta em k segmentos de folha. 
Consequentemente, o parâmetro k foi definido pela aderência do limite do algoritmo SLIC. 

Cada imagem tem uma dimensão de 4.000 x 3.000 pixels, totalizando 12.000.000 
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pixels. Uma folha individual de soja para 1 metro de altura possui cerca de 12.000 
pixels. Assim, o parâmetro de segmentação K foi ajustado para 1.000 regiões; dividindo 
12.000.000 pixels por 1.000 regiões, obteve-se 12.000 pixels para cada folha. A mesma 
ideia foi considerada para o dobro da altura, isto é, tomando 2 metros de altura, o número 
k de regiões foi 2.000, e assim por diante. Após a segmentação SLIC das imagens, foram 
geradas 3,624 imagens de superpixels, ou seja, imagens de folhas divididas em três classes 
de doenças da soja: mancha-alvo, oídio e folhas sem doença. 


Figura 2.2 — (a) Área experimental usada para o plantio da cultura de soja a partir da vista de cima 
(imagem criada com o Google Earth). (b) e (c) são imagens obtidas pelo VANT com alturas de 4m e 
16m, respectivamente. 


Com apoio de um agrônomo, cada imagem foi anotada para construir o conjunto 
de dados de imagem e o modelo de aprendizagem de máquina. As imagens foram 
capturadas no formato digital negative (DNG), com diferentes alturas usando o DJI 
Phanton 3 Professional, equipado com um sensor Sony EXMOR de 1/2,3 polegadas e 
12,3 megapixels de resolução. Na Tabela 2.1, o GSD (Ground Sample Distance) foi obtido 
com uma distância focal real de 3,57 mm para diferentes alturas de voo, mostrando a 
área de cobertura com seu respectivo GSD. As imagens foram capturadas nos campos de 
cultivo, usando um ângulo de 0º da câmera em relação ao solo. Assim, foi possível calcular 
quantos pixels tem uma folha nas imagens tomadas em diferentes alturas. 
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Altura de GSD Comprimento da Altura da Área Pixels por 
Voo (m) (mm) imagem (m) imagem (m) (m2) Folha 
1 0,43 1,72 1,29 2,204 12.000 
2 0,86 3,45 2,59 8,96 6.000 
4 1,72 6,91 5,18 35,84 3.000 
8 3,45 13,82 10,37 143,37 1.500 
16 6,91 27,65 20,73 573,50 750 


Tabela 2.1 - Valores de GSD calculados para diferentes alturas do Phantom 3. 


B. Extração de Atributos e Classificação 


Existem vários atributos visuais para descrever as propriedades físicas das imagens 
e que dependem principalmente da cor, gradiente, textura e forma. Os atributos de cor 
focam as propriedades físicas das superfícies dos objetos, ou seja, como refletem os 
diferentes valores de comprimento de onda. Os atributos de textura se concentram em 
descrever imagens como padrões repetitivos que podem variar de acordo com o tamanho, o 
que produz diferentes sensações táteis associadas à rugosidade, grosseria e regularidade. 
Forma descreve imagens de acordo com o contorno dos objetos, enquanto os recursos de 
gradiente são baseados nas derivadas em diferentes direções da imagem. O sistema de 
classificação de imagens utiliza como características os seguintes métodos: 

* Cor: estatísticas de cores [16], 

* Gradiente: histograma de gradientes orientados [17], 

* Textura: matriz de coocorrência de níveis de cinza [18] e padrões binários locais 
[19] 

* | Forma: Momento de Hu e momentos centrais [20] 

Para a classificação de imagens, os algoritmos de aprendizagem de máquina usam 
as imagens descritas para identificar e classificar de acordo com os padrões visuais. Aqui, 
modelos de aprendizagem supervisionados foram empregados com conjuntos de treinamento 
e teste divididos de acordo com a validação cruzada de dez dobras. Classificadores bem 
conhecidos da literatura foram comparados, incluindo SVM [21], Adaboost [22], árvores 
de decisão usando o algoritmo J48 [23], k-vizinhos mais próximos (k-NN) [24], Random 
Forest [25] e Naive Bayes [26], a fim de avaliar estatisticamente o potencial da proposta de 
reconhecimento foliar nos campos de soja, comparando diferentes alturas. 


51 RESULTADOS EXPERIMENTAIS E DISCUSSÃO 


Nesta seção são descritos os experimentos e os resultados obtidos pela abordagem 
proposta. Na tarefa de classificação, as imagens capturas em diferentes alturas foram 
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submetidas aos modelos de aprendizagem de máquina. Para avaliar o desempenho 
dos classificadores, foi usada a taxa de classificação correta (TCC). Para treinamento e 
teste dos classificadores, foi usada a validação cruzada de 10 dobras estratificada. Neste 
esquema, as imagens do conjunto de dados são divididas em 10 dobras garantindo que 
cada dobra tenha a mesma proporção de cada classe. Em seguida, uma dobra é usada 
para testar, enquanto as dobras restantes são usadas para treinar o classificador SVM. O 
processo é repetido 10 vezes usando cada dobra exatamente uma única vez para o teste. 
Finalmente, a taxa de classificação correta (TCC) é dada pela média das 10 rodadas. Para 
cada algoritmo testado, foram calculados os desempenhos médios das métricas TCC e 
medida-F. 

Para verificar se os algoritmos testados diferem estatisticamente em relação ao 
desempenho e altura, utilizou-se o teste de hipóteses ANOVA no AStudio, com cada bloco 
correspondendo uma classe do problema. Os valores-p encontrados para cada métrica e 
o nível de significância requerido foram relatados para descartar a hipótese nula. Depois, 
os dados foram analisados a partir de uma linha estatística descritiva no diagrama boxplot. 


A. Classificação e Avaliação de Altura 


A Figura 2.3 mostra os resultados obtidos por seis classificadores bem-conceituados 
na aprendizagem de máquina e inteligência artificial, conforme descrito na Seção IV. O 
melhor desempenho de TCC foi obtido pelo classificador SVM, seguido pelo Random 
Forest. 
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Figura 2.3 — TCC obtido em diferentes alturas usando extratores de atributos combinados baseados em 
cor, gradiente, textura e forma. 
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A Figura 2.4 apresenta o desempenho de cada classificador, com o valor da mediana 
em destaque no diagrama boxplot. O diagrama também mostra o intervalo da variação de 
desempenho obtido por cada classificador. De acordo com a figura, o classificador SVM 
apresentou a melhor TCC, possuindo maior valor para a mediana e dispersão de dados na 
melhor faixa de valores para TCC. 
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Figura 2.4 — Diagrama boxplot comparando o desempenho entre os classificadores para a métrica 
TCC. 


Na Figura 2.5, observa-se que os valores das medianas e das dispersões de dados 
resultaram em uma melhor faixa de TCC entre alturas de 1 metro e 2 metros. Essas alturas 
não apresentaram variações significativas nos experimentos realizados, possuindo forte 


evidência estatística de similaridade. 
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Figura 2.5 — Diagrama boxplot comparando o desempenho entre os classificadores para diferentes 
alturas. 
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B. Avaliação de Extratores de Atributos 

Outro objetivo dos experimentos foi avaliar o desempenho individual dos atributos 
extraídos para o reconhecimento de doenças foliares da soja. Para este propósito, os 
atributos baseados em cor, gradiente, textura e forma foram comparados em termos de 
TCC calculados pelos classificadores para diferentes alturas, como mostra a Figura 2.6. 
Os resultados deste experimento demonstram que a cor é o atributo mais importante em 
termos de discriminação quando comparada aos atributos de textura, gradiente e forma na 
tarefa de reconhecimento de doenças foliares da soja. 
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Figura 2.6 — TCCs obtidos pelos classificadores em diferentes alturas utilizando extratores de atributos 
baseados em cor, gradiente, textura e forma. 
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C. Comparação com Descritores Locais 


Neste experimento, a abordagem proposta foi comparada com descritores locais 
que foram utilizados para identificar doenças foliares da soja através de um scanner de 
mesa, proposto em [5]. Para este fim, a mesma implementação dos autores foi utilizada 
aplicando as melhores alturas, 1 e 2 metros. Também foram empregados os melhores 
parâmetros k para cada descritor local testado em [5], a fim de definir o número de palavras 
visuais usadas no dicionário da abordagem de histograma de palavras visuais. 

A Tabela 2.2 mostra a TCC para cada descritor local e dois classificadores, SVM 
e k-NN. Como pode ser visto, a abordagem proposta superou os métodos de descritores 
locais para todos os valores de Kk. A abordagem proposta alcançou o melhor resultado com 
o classificador SVM. Os métodos de descritores locais PHOW, DSIFT e HOG forneceram 
69,72%, 63,05% e 62,77% para 3.500, 2.000 e 1.000 palavras visuais, respectivamente. 
Para descritores locais esparsos, o SIFT e o SURF alcançaram 46,94% e 56,38% com 
imagens tomadas sob a altura de 1 metro. 


SVM (%) k-NN (%) 
Descritor Local k im 2m tm 2m 

SURF 500 56,38 | 38,05 | 55,56 | 35,56 

HOG 1000 | 61,66 | 62,77 | 45,00 | 36,11 

DSIFT 2.000 | 63,05 | 56,38 | 44,44 | 35,56 

SIFT 3.500 46,94 34,44 39,17 34,44 

PHOW 3.500 | 69,72 | 58,61 | 45,28 | 36,44 
Abordagem Proposta - 98,34 | 98,09 | 93,14 | 93,05 


Tabela 2.2 - Comparação da abordagem proposta com descritores locais para identificação de doenças 
foliares da soja sob duas alturas diferentes. 


O modelo SVM exibiu a mais alta TCC, usando recursos baseados em cor, 
gradiente, textura e forma. Os métodos baseados em descritores locais não alcançaram a 
mesma precisão conforme relatado em [5] devido à distância entre a câmera e a folha, se 
comparado com qualquer scanner de mesa. Portanto, o SVM foi o modelo mais adequado 
para a classificação de doenças da soja usando imagens do VANT Phantom 3, e a altura 
mais adequada foi entre 1 e 2 metros. 


61 CONCLUSÃO E TRABAHOS FUTUROS 

Neste artigo uma nova abordagem baseada no método de segmentação SLIC 
foi proposta para identificar doenças foliares da soja utilizando VANTs. Um passo de 
segmentação de imagem foi considerado para detectar as folhas da planta nas imagens 
tomadas com voos de um VANT modelo Phanton. Posteriormente, as folhas foram 
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descritas usando características visuais, incluindo cor, gradiente, textura e forma. Na etapa 
de classificação da abordagem, seis classificadores bem conhecidos na literatura foram 
comparados. Os experimentos sustentaram a hipótese da abordagem proposta de que as 
alturas mais próximas entre o VANT e a planta apresentam maiores taxas de classificação. 
Ataxa de classificação correta (TCC) confirmou que a abordagem obteve 98,34% de acerto 
na identificação da doença foliar usando alturas entre 1 e 2 metros, com decaimento de 2% 
a cada metro, uma vez que a resolução da imagem da planta muda para alturas mais altas. 

Os resultados experimentais também indicaram que os atributos de cor e textura 
levam a maiores taxas de classificação. Além disso, os experimentos foram capazes de 
determinar o limite de altura mais baixo da abordagem proposta. Embora seja possível tirar 
fotos em diferentes alturas, ao usar lentes diferentes, recomenda-se que os especialistas 
considerem alturas superiores a im, visto que as pás dos rotores do VANT podem agitar 
consideravelmente as folhas das plantas. Como parte do trabalho futuro, pretende-se testar 
redes neurais convolucionais, aumentando a quantidade de doenças. Também considera- 
se avaliar a abordagem proposta com câmeras de maior resolução e multiespectrais. 
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RESUMO: A soja tem sido a principal commodity agrícola brasileira, contribuindo 
substancialmente para a balança comercial do país. Entretanto, doenças foliares tem 
prejudicado o alto rendimento da produção de soja, ocasionando a depreciação do produto 
final. Este artigo propõe um sistema de visão computacional para monitorar as doenças 
foliares da soja no campo, utilizando imagens capturadas por um VANT de baixo custo, 
modelo DJI Phantom 3. O sistema proposto baseia-se no método de segmentação SLIC para 
detectar folhas de plantas nas imagens e atributos visuais para descrever as características 
de propriedades físicas da folha, tais como cor, gradiente, textura e forma. O desempenho 
de seis classificadores foi avaliado usando imagens capturadas a 2 metros de altura da 
plantação. Os resultados experimentais mostraram que os atributos de cor e textura levam 
a taxas de classificação mais altas, atingindo a TCC de 97,8%. Os resultados indicam que a 
abordagem proposta pode apoiar especialistas e agricultores no monitoramento de doenças 
da cultura de soja. 

PALAVRAS-CHAVE: Doenças foliares da soja, VANTs, imagens aéreas. 


11 INTRODUÇÃO 


A soja (Glycine max) tem sido a principal commodity agrícola brasileira, possuindo 
importante participação econômica na balança comercial do país. O Brasil é o segundo 
maior produtor mundial de soja, atrás apenas dos EUA. Na safra 2016/2017, o estado 
de Mato Grosso foi considerado o maior produtor brasileiro do grão (29.952,9 milhões de 
toneladas), seguido pelo estado do Paraná (18.249,8 milhões de toneladas) e Rio Grande 
do Sul (16.374,6 milhões de toneladas) [1]. 

Apesar dos resultados satisfatórios, algumas doenças provocadas por fungos, 
bactérias, vírus e nematoides tem prejudicado consideravelmente a produção de soja em 
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alguns estados. Na safra 2016/17, o Consórcio Antiferrugem registrou 415 ocorrências 
de focos da doença ferrugem asiática em diversos estados produtores do Brasil, como 
Rio Grande do Sul (115), Paraná (87), Mato Grosso do Sul (64), Tocantins (41), Mato 
Grosso (34), Bahia (32), entre outros [2]. Além disso, doenças como mancha alvo, míldio 
e oídio também podem afetar severamente o rendimento da soja. O diagnóstico precoce 
de doenças é fundamental para a gestão de pesticidas na cultura e, consequentemente, 
pode reduzir os prejuízos econômicos e o impacto ambiental decorrente do uso excessivo 
de agroquímicos [3]. 

Embora o potencial de danos causados na cultura da soja sejam, em alguns casos, 
alarmantes, não se indica a aplicação preventiva de produtos químicos, pois a aplicação 
desnecessária eleva os custos de produção e contribui para o desequilíbrio populacional 
de insetos benéficos [4]. O controle das principais doenças da soja deve ser feito com 
base nos princípios do manejo de doenças da soja [5]. Consistem de tomadas de decisão 
de controle com base no nível de infestação e no estádio de desenvolvimento da soja — 
informações essas obtidas em inspeções regulares por amostragem em diferentes regiões 
da lavoura. 

Normalmente a detecção da doença é realizada visualmente por um profissional do 
meio agronômico, o que pode levar a um diagnóstico impreciso ou incorreto. Bock et al. 
[6] listam uma série dessas desvantagens. Algumas doenças não têm quaisquer sintomas 
visíveis associados, ou somente aparecem quando é muito tarde para agir. Nesses casos, 
algum tipo de análise sofisticada, por meio de microscópios modernos, é geralmente 
necessária. Em outros casos, os sinais só podem ser detectados em algumas faixas do 
especiro eletromagnético que não são visíveis aos seres humanos. Uma abordagem 
comum é o uso de sensores remotos que exploram a captura de imagens multiespectrais 
e hiperespectrais. A maioria das doenças, no entanto, geram algum tipo de manifestação 
no espectro visível. 

Devido aos altos custos de controle químico e o seu impacto ecológico, um dos 
objetivos da agricultura de precisão é reduzir e otimizar as aplicações de pesticidas. A 
detecção e a classificação de várias doenças em fases iniciais de epidemias permitem 
uma aplicação mais eficiente de agroquímicos [3]. Contudo, o monitoramento visual de 
doenças em fases iniciais no campo é um processo que requer elevado conhecimento 
técnico, sendo suscetível a falha humana. 

Para superar essas questões, há uma crescente motivação ao uso de Veículos 
Aéreos não Tripulados (VANTs!) na agricultura. Neste contexto, eles são capazes de 
sobrevoar uma plantação a poucos metros de distância com câmeras de alta resolução 
espacial, a fim de capturar imagens ricas em detalhes, o que torna possível a criação de um 
sistema de visão computacional para identificar diferentes espécies de doenças da cultura 


1 Segundo a Força Aérea Brasileira (FAB), um VANT é toda aeronave projetada para operar sem piloto a bordo, com 
carga útil embarcada e não utilizada para fins recreativos. 
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de soja. Isso é essencial para tornar este tipo de aplicação viável, uma vez que uma grande 
quantidade de imagens é capturada e são necessárias analisá-las automaticamente. Além 
disso, o alto custo de produtos químicos associados a ações de baixo impacto ecológico 
levam a melhores práticas da agricultura de precisão. Assim, o uso de VANTs em campos 
de cultivo tem sido considerado um importante instrumento para identificar manchas de 
doenças, permitindo que especialistas e agricultores tomem melhores decisões gerenciais. 

Diante do contexto exposto e da lacuna de pesquisa observada, este artigo propõe 
um sistema de visão computacional para identificar automaticamente doenças foliares 
da soja, a partir de imagens aéreas capturadas por um modelo de VANT de baixo custo 
bastante conhecido no mercado, denominado DJI Phantom 3. Inicialmente, considerou-se 
um passo de segmentação de imagem para detectar as folhas das plantas nas imagens 
obtidas durante a inspeção de voo. Em seguida, as folhas foram descritas usando 
características visuais, incluindo cor, gradiente, textura e forma. A metodologia avalia seis 
classificadores conhecidos da literatura, utilizando imagens capturadas a 2 metros de 
altura da plantação. A abordagem proposta utiliza um conjunto de 3.000 imagens, divididas 
em 6 classes: ferrugem asiática, mancha-alvo, míldio, oídio, solo (solo exposto e palha) 
e folhas saudáveis - para avaliar a taxa de classificação correta (TCC) do sistema. Os 
experimentos também compararam as TCC de cada característica visual separadamente 
para descobrir quais atributos são mais significativos em termos de discriminação na tarefa 
de reconhecimento de doenças foliares da soja. 

Este artigo está organizado da seguinte forma. A Seção Il oferece a revisão da 
literatura. A abordagem proposta para identificar as doenças foliares da soja está descrita 
na Seção Ill. A Seção IV relata os materiais e métodos adotados nesta pesquisa. A Seção V 
mostra os resultados experimentais, seguidos por uma discussão. Finalmente, conclusões 
e trabalhos futuros são apresentados na Seção VI. 


21 REVISÃO DA LITERATURA 


Nas últimas décadas muitos sistemas têm sido propostos para a detecção automática 
de doenças em plantas. No entanto, poucos deles abordam o uso de imagens coletadas por 
VANTSs para a identificação de doenças da soja. Neste contexto, Pires et al. [7] propuseram 
um método baseado em descritores locais e histogramas de palavras visuais para identificar 
doenças de soja usando imagens de folhas capturadas por um scanner de mesa. 

Gui et al. [8] sugeriram um novo método adaptado do método ltti para detectar 
doenças da soja com base em regiões salientes. Este método utiliza recursos de baixo 
níveis de iluminação e cor, combinados com análise multi-escala para determinar mapas de 
saliência em imagens, utilizando o algoritmo k-means e limiar de experiência combinada. 

Shrivastava Hooda [9] apresentaram uma aplicação na agricultura para detecção 
e classificação de duas doenças da soja: mancha marrom e olho de rã. O dispositivo 
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móvel captura a imagem no campo e depois um vetor de atributos de forma é extraído no 
processamento da imagem que ajuda um classificador k-NN na classificação da doença. 

Mohanty et al. [10] descreveram uma arquitetura de rede neural convolucional para 
problemas de classificação de imagens com um grande número de classes. Usando um 
conjunto de dados públicos de 54.306 imagens de folhas de plantas doentes e saudáveis 
coletadas sob condições controladas, eles treinaram uma rede neural convolucional para 
identificar 14 espécies de culturas diferentes e 26 doenças. 

Pujari et al. [11] analisaram a aparência da doença fúngica oídio em diferentes 
culturas: uva, manga, pimentão, trigo, feijão e girassol. Eles extraíram características de 
cor e textura das amostras de oídio e, depois, utilizaram essas características como entrada 
para dois classificadores: baseado-em-conhecimento e redes neurais artificiais (RNA). 

Rumpf et al. [12] propuseram um sistema para detectar doenças de plantas utilizando 
máquina de vetores de suporte baseado em reflectância hiperespectral. A principal 
contribuição deste trabalho é um procedimento que detecta e classifica, de modo pré- 
sintomático, as doenças cercospora, ferrugem e oídio da beterraba-sacarina, baseando-se 
em índices espectrais da vegetação. 

Estudos recentes sobre agricultura de precisão, utilizando imagens de sensoriamento 
remoto obtidas por VANTSs e algoritmos de aprendizagem de máquina, foram propostos para 
identificar doenças em cítricos [13], detectar ervas daninhas em trigo [14] e também em 
milho [15]. Em [16], os autores utilizaram sensoriamento remoto com imagens no espectro 
do visível e do infravermelho próximo (NIR) para detectar duas doenças de soja, incluindo 
o nemátodo de cisto e a síndrome da morte súbita. Yuan et al. [17] recentemente usaram 
VANTSs para medir o índice da área foliar da soja. 


31 ABORDAGEM PROPOSTA 


Nesta seção, apresentamos uma abordagem de visão computacional para identificar 
doenças foliares da soja através de imagens coletadas pelo VANT Phantom 3. A abordagem 
proposta adota o algoritmo Simple Linear Iterative Clustering (SLIC) para detectar as folhas 
das plantas nas imagens. O método SLIC emprega o algoritmo k-means [18] para a geração 
de regiões semelhantes, chamadas superpixels. O parâmetro Kk do algoritmo refere-se ao 
número de superpixels na imagem e permite controlar o tamanho dos superpixels. Aqui, O 
parâmetro k foi ajustado para melhor segmentar as folhas das plantas de soja. 

De acordo com Achanta et al. [19], o algoritmo SLIC agrupa regiões de pixels no 
espaço 5-D definido por L, a, b (valores da escala CIELAB de cor) e as coordenadas x e 
y dos pixels. Uma imagem de entrada é segmentada em regiões retangulares, definindo o 
número Kk de superpixels com aproximadamente pixels, onde N é o número de pixels da 
imagem. Cada região compõe um superpixel inicial de dimensões S x S, onde S = fe Os 
centros dos agrupamentos de superpixel C, = [1,, à, D, X, Y] com k=[1, k] são escolhidos, 
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espaçados em uma matriz regular para formar os agrupamentos de tamanho aproximado 
S?. Os centros são movidos para o valor de menor gradiente sobre uma vizinhança de 3x3 
pixels, evitando a alocação de centroides nas regiões de borda que tenham pixels ruidosos. 
Em vez de usar uma norma euclidiana simples no espaço 5D, uma medida de distância D, 
é definida da seguinte forma: 


diab = (ly 1)? + (ay ai)? + (be- bi)? (1) 
day = (Ooo XD)? + (Ve — Yi)? (2) 
Ds =diab+ E ki dy (3) 


onde D, é a soma da distância d,, 


(Equação 1) e a distância dy (Equação 2), 
normalizada pelo intervalo S. O parâmetro m corresponde ao controle de compactação 
de superpixel; quanto maior o seu valor, mais compacto é o agrupamento em termos de 
proximidade espacial. Cada pixel da imagem é associado ao centroide mais próximo de 
um grupo e, depois de todos os pixels estarem associados a um centroide, um novo centro 
é calculado com o vetor Labxy de todos os superpixels pertencentes ao grupo. No final 
do processo, alguns pixels podem estar conectados a um grupo incorretamente, então 
o algoritmo reforça a conectividade na última etapa, atribuindo os pixels sozinhos aos 
maiores grupos vizinhos [19]. 

Um diagrama esquemático do sistema proposto é mostrado na Figura 3.1. Ela ilustra 
a metodologia que consiste de cinco etapas: (a) aquisição de imagem, (b) segmentação 
SLIC, (c) conjunto de imagens, (d) extração de atributos e, finalmente, (e) classificação de 
doenças foliares. Inicialmente, a inspeção de voo foi conduzida com o VANT nos campos 
de soja para capturar imagens da plantação (ver passo (a) na Figura 3.1). Essas imagens 
foram segmentadas usando o método SLIC Superpixels. Cada segmento de superpixel foi 
classificado visualmente em uma classe específica: ferrugem asiática, mancha-alvo, míldio, 
oídio, solo ou amostras de folhas saudáveis. O valor de k = 2.000 foi ajustado para dividir 
a imagem em 2.000 segmentos de superpixels (Figura 3.1(b)). Este valor corresponde ao 
tamanho aproximado da segmentação de uma folha de soja. 


(a) (b) (c) (d) (e) 


Figura 3.1 — Proposta do sistema de visão computacional para identificar doenças foliares da soja com 
imagens de VANT. 
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Após a segmentação da imagem com o método de SLIC, os segmentos foliares 
pertencentes à classe foram visualmente analisados por um especialista para compor 
um banco de imagens de superpixels para treinamento e teste do sistema, ver etapa (c) 
da Figura 3.1. Neste caso, um engenheiro agrônomo foi responsável pela avaliação da 
representatividade da amostra para a análise estatística. Subsequentemente, as imagens 
foram descritas como características baseadas na cor, gradiente, textura e forma (ver passo 
(d) da Figura 3.1) através de vetores de atributos extraídos das imagens de superpixels. A 
etapa final mostra uma imagem de teste avaliada pelo sistema de visão computacional (ver 
passo (e) da Figura 3.1). O resultado da taxa de classificação calculada para cada uma das 
doenças é mostrado na captura de tela do sistema proposto. 


41 MATERIAIS E MÉTODOS 
As próximas seções cobrem os materiais e métodos adotados neste artigo. 
A. Delineamento Experimental 


As imagens das plantas de soja foram capturadas a 2 metros de altura com o VANT 
Phantom 3. Neste caso, escolheu-se dois metros porque valores menores causam o 
deslocamento das folhas devido ao vento gerado pelas pás dos rotores. Em contrapartida, 
para valores mais altos o tamanho das folhas nas imagens é gradativamente reduzido e, 
consequentemente, a resolução da imagem diminui. A Figura 3.2 mostra diferentes alturas 
testadas, no caso, 1,2,4,8e 16 metros. 


tm 2m 4m 8m 16m 


Figura 3.2 — Planta da soja com a presença da doença do oídio capturada pelo VANT em diferentes 
alturas. 


Para tanto, as imagens foram capturadas a partir de um campo experimental de soja, 
mostrado na Figura 3.3. A área agrícola é situada na fazenda Bom Princípio, localizada no 
município de Dourados-MS, com coordenadas geográficas 22º 6' 22.77” latitude Sul e 54º 
15' 20.05” longitude Oeste. As imagens foram obtidas durante a safra Set/2016-Fev/2017. 
A fim de identificar as folhas das plantas nas imagens, cada imagem foi segmentada por 
meio do método baseado em superpixel, de acordo com o parâmetro k que melhor ajusta 
a detecção das folhas na planta. Nos experimentos, os melhores parâmetros k foram 
encontrados empiricamente com o valor de 2.000 superpixels para segmentar as folhas 
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das plantas de soja. Como resultado, 3.000 imagens de superpixels, sendo 500 imagens 
para cada classe, foram distribuídas entre as seis classes de identificação de doenças da 
soja. As classes, neste caso, correspondem às doenças: ferrugem asiática, mancha-alvo, 
míldio, oídio, solo e folhas sem doença. 


Figura 3.3 — Visão aérea da área experimental utilizada para o plantio da cultura de soja. 


Com apoio de um especialista da área agronômica, cada imagem foi anotada, 
construindo assim, uma coleção de referências de superpixels para o conjunto de imagens 
(veja a Figura 3.4). As imagens no formato .DNG foram capturadas utilizando o VANT 
modelo DJI Phanton 3 Professional, equipado com um sensor Sony EXMOR de 1/2,3 
polegadas e 12,3 megapixels de resolução. As imagens foram capturadas a 2 metros de 
altura da plantação sobre os alvos de interesse, usando um ângulo de 0º da câmera em 
relação ao solo. Os alvos, neste caso, correspondem ao estrato superior da planta (folhas) 
que carregam as informações de doenças da soja. 
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Ferrugem 
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Tae AN A Mid 
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Folha 
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Figura 3.4 — Exemplos de imagens de superpixels do nosso conjunto de imagens, divididos em 
doenças, solo e folha saudável. 


B. Extração de Atributos e Classificação 


Extração ou descrição de atributos é um passo importante nos sistemas de 
classificação, visto que esta etapa é capaz de reduzir a informação dos padrões de conteúdo 
visual e os representá-los em um vetor de características. Existem vários atributos visuais 
que descrevem as propriedades físicas das imagens, que dependem principalmente da cor, 
gradiente, textura e forma. Embora o sistema visual humano possa facilmente discriminar 
imagens, a descrição das características baseia-se nas propriedades físicas das superfícies 
dos objetos, ou seja, como elas refletem os diferentes valores de comprimento de onda. 

Os atributos de textura se concentram em descrever imagens como padrões 
repetitivos que podem variar de acordo com o tamanho, o que produz diferentes sensações 
táteis associadas à aspereza, grosseria e regularidade. Forma descreve imagens 
dependendo do contorno dos objetos, enquanto as características de gradiente são 
baseadas nas derivadas em diferentes direções da imagem. No sistema de classificação 
de imagens foram implementados e usados como atributos os seguintes métodos: cor 
(estatísticas de cores [20]), gradiente (histograma de gradientes orientados [21]), textura 
(matriz de co-ocorrência de nível de cinza [22] e padrões binários locais [23]) e forma 
(momentos de Hu e momentos centrais [24]). 

Para a classificação de imagens, os algoritmos de aprendizagem de máquina usam 
as imagens descritas para identificar e classificar de acordo com os padrões visuais. Aqui, 
empregou-se modelos de aprendizagem supervisionados com conjuntos de treinamento e 
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teste divididos de acordo com a validação cruzada de dez dobras. Seis classificadores bem 
conhecidos da literatura foram comparados, incluindo SVM [25], Adaboost [26], árvores 
de decisão usando o algoritmo J48 [27], Random Forest [28], k-vizinhos mais próximos (k- 
NN) [29] e Naive Bayes [30], a fim de avaliar estatisticamente o potencial da proposta de 
reconhecimento foliar nos campos de soja. 


51 RESULTADOS EXPERIMENTAIS E DISCUSSÃO 


Esta seção descreve os experimentos e os resultados obtidos pela abordagem 
proposta. Na tarefa de classificação, as imagens capturadas foram submetidas aos 
modelos de aprendizagem de máquina. Quatro métricas foram utilizadas para avaliar o 
desempenho dos classificadores: taxa de classificação correta (TCC), medida-F, área 
ROC e tempo médio para construir o modelo de classificação. Para treinamento e teste 
dos classificadores, foi utilizada a validação cruzada de 10 dobras estratificada. Neste 
esquema, as imagens do conjunto de dados são divididas em 10 dobras, garantindo que 
cada dobra tenha a mesma proporção de cada classe. Em seguida, uma dobra é usada para 
testar, enquanto as dobras restantes são usadas para treinar o classificador. O processo é 
repetido 10 vezes usando cada dobra exatamente uma única vez para o teste. Finalmente, 
a taxa de classificação correta é dada pela média das 10 rodadas. Para cada algoritmo 
testado, foram calculados os desempenhos médios das métricas ajustadas para problemas 
com mais de duas classes. 

Para verificar se os algoritmos testados diferem estatisticamente em relação 
ao desempenho, utilizou-se o teste de hipóteses ANOVA no AStudio, com cada bloco 
correspondendo uma classe do problema. Os valores-p encontrados para cada métrica 
e o nível de significância requerido foram relatados para descartar a hipótese nula. Em 
seguida, os dados foram analisados a partir de uma linha estatística descritiva no diagrama 
boxplot. 


A. Avaliação de Classificação 


A Figura 3.5 mostra os resultados de TCC obtidos por seis classificadores bem 
conhecidos da literatura, considerando os valores da Tabela 3.1. É possível observar que 
não existe diferença significativa de desempenho de TCC entre os classificadores SVM 
e Random Forest. Este resultado foi confirmado pelo teste de Tukey (p-valor > 0,05). 
Neste critério de desempenho, o classificador SVM obteve maior TCC, seguido pelos 
classificadores Random Forest, J48, k-NN, Naive Bayes e Adaboost. A Tabela 3.1 também 
mostra o tempo médio para construir o modelo de classificação. Conforme a tabela, o 
classificador k-NN obteve menor tempo de processamento, seguido pelos classificadores 
Adaboost, Naive Bayes, SVM, J48 e Random Forest. 
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Classificador TCC (%) Medida-F (%) Área ROC (%) Tempo (s) 

SVM 97,80 97,80 99,50 0,62 

RandomForest 97,76 97,80 99,90 4,47 

J48 94,93 94,90 97,30 1,78 

NaiveBayes 51,16 48,50 90,50 0,20 

k-NN 88,03 88,00 92,80 0,00 

AdaBoost 32,96 18,30 72,10 0,19 

Tabela 3.1 - Métricas de desempenho utilizadas para avaliar o sistema de visão computacional 
proposto. 
100 - 
75- Classificador 
E AdaBoost 
ES J48 
O 50- E e 
- 

il NaiveBayes 
E] RandomForest 

0- 

per J48 KNN egos side sMo 
Classificador 


Figura 3.5 — TCC obtido por diferentes classificadores, utilizando extratores de atributos baseados em 
cor, gradiente, textura e forma. 


A Figura 3.6 apresenta o desempenho de cada classificador para as métricas TCC, 
medida-F e área sobre a curva ROC, com o valor da mediana em destaque no diagrama 
boxplot. O diagrama apresenta ainda o intervalo da variação de desempenho obtido por 
cada classificador. De acordo com a figura, os classificadores SVM e Random Forest 
apresentaram melhor desempenho, possuindo maior valor para a mediana e dispersão de 
dados na melhor faixa de valores para as métricas avaliadas. 
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Figura 3.6 — Diagrama boxplot comparando o desempenho entre os classificadores para a métrica 
TCC. 


A Figura 3.7 apresenta a matriz de confusão do classificador SVM — que obteve 
o melhor resultado para a TCC. De acordo com a figura, as classes oídio/mancha-alvo e 
míldio/folha saudável obtiveram maior número de instâncias classificadas incorretamente, 
devido ao grau de semelhança existente entre essas classes. 


ferrugem saudável fundo 'mancha-alvo mildio oídio 
ferrugem KEN 0 3 2 0 0 
saudável 0 489 0 0 10 1 
fundo 2 0 KEN 0 0 2 
mancha-alvo 3 1 0 488 0 8 
mildio 0 12 0 1 483 4 

oídio 0 0 2 11 4 483 


Figura 3.7 — Matriz de confusão obtida pelo classificador SVM com a TCC para cada classe 
investigada. 


B. Avaliação de Extratores de Atributos 


Outro objetivo do experimento foi avaliar o desempenho de cada característica 
visual que descreve as propriedades físicas da folha. Para este propósito, os atributos 
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baseados em cor, gradiente, textura e forma foram comparados individualmente em termos 
de TCC calculados pelo classificador SVM, como mostra a Figura 3.8. Os resultados deste 
experimento demonstram que para o classificador avaliado, os atributos cor (97,53%) e 
textura (68,96%) são mais significativos em termos de discriminação quando comparados 
aos atributos de gradiente (46,16%) e forma (25,13%) na tarefa de reconhecimento de 
doenças foliares da soja. 


100 - 
755 
Atributo 
EE Cor 
O 50- E Forma 
[a 
B Gradiente 
E Textura 
. 5 
0 - 
Cor Forma Gradiente Textura 
Atributo 


Figura 3.8 — TCC obtido pelo classificador SVM, utilizando cada extrator de atributo separado, baseado 
em cor, gradiente, textura e forma. 


O atributo cor é mais significativo que os demais atributos porque as manchas de 
doenças geralmente apresentam diferentes colorações na folha. Os primeiros sintomas 
da ferrugem asiática são caracterizados por pequenos pontos de coloração esverdeada a 
cinza-esverdeada, mais escuros do que o tecido sadio da folha. As lesões da mancha-alvo 
se iniciam por pontuações pardas, com halo amarelado, evoluindo para grandes manchas 
circulares de coloração castanho-clara a castanho-escura. Os sintomas iniciais do míldio 
são manchas verde-claras que evoluem para a cor amarela na parte superior da folha. Já 
a doença oídio apresenta uma fina cobertura esbranquiçada nas folhas em decorrência da 
coloração branca do fungo [31]. 


61 CONCLUSÃO 


Neste artigo foi proposta uma nova abordagem baseada no método de segmentação 
SLIC para identificar as doenças foliares da soja utilizando VANTs. Consideramos um passo 
de segmentação de imagem para detectar as folhas das plantas nas imagens tomadas 
com voos de um VANT modelo Phantom. Em seguida, foi realizada a etapa de extração 
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de características usando descritores visuais, incluindo cor, gradiente, textura e forma. Na 
etapa de classificação da abordagem proposta, seis classificadores bem conhecidos na 
literatura foram comparados. A taxa de classificação correta confirmou que a abordagem 
obteve a TCC de 97,80% na identificação da doença foliar, utilizando o classificador SVM em 
imagens capturadas a 2 metros de altura. Os resultados experimentais também indicaram 
que os atributos de cor e textura levam a maiores taxas de classificação. Como parte de 
trabalhos futuros, pretende-se realizar novos experimentos com câmeras multiespectrais 
e de maior resolução. Também considera-se comparar a abordagem proposta com outras 
abordagens de aprendizagem. 
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RESUMO: As doenças de plantas são uma questão crucial na agricultura. Uma identificação 
precisa e automática de doenças foliares poderia ajudar a desenvolver uma resposta precoce 
visando reduzir as perdas econômicas. Pesquisas recentes em doenças de plantas adotaram 
redes neurais profundas. No entanto, pesquisas usaram os modelos como uma caixa preta 
passando as imagens rotuladas pelas redes. Este artigo apresenta uma análise dos pesos 
de redes para o reconhecimento automático de doenças foliares da soja aplicadas a imagens 
obtidas diretamente de um VANT pequeno e barato. Para alcançar uma alta precisão, 
avaliamos quatro modelos de redes neurais profundas treinados com diferentes parâmetros 
para ajuste fino e transferência de aprendizagem. O aumento de dados e o dropout foram 
usados durante o treinamento da rede para evitar sobreajuste. Nossa metodologia consiste 
em usar o método SLIC (Simple Linear Iterative Clustering) para segmentar as folhas da 
planta nas imagens aéreas obtidas durante o voo. Testamos o nosso conjunto de dados 
criado a partir de inspeções reais de voo em uma abordagem de visão computacional de 
ponta a ponta. Os resultados sugerem fortemente que o ajuste fino dos parâmetros melhora 
substancialmente a acurácia da identificação. 
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PALAVRAS-CHAVE: Imagens aéreas, aprendizagem profunda, agricultura de precisão, 
doenças foliares de soja, sensoriamento remoto baseado em veículo aéreo não tripulado 
(VANT). 


11 INTRODUÇÃO 


A visão computacional tem sido amplamente utilizada como ferramenta da 
agricultura de precisão para aumentar a produção de grãos. Estima-se que o crescimento 
da população mundial chegará a 9,7 bilhões em 2050 e a 11,2 bilhões em 2100 [1], o 
que significa que será necessário expandir substancialmente a quantidade de alimentos 
produzidos. Veículos aéreos não tripulados (VANT) tem ajudado a inovar na produção de 
grãos. Eles são equipados com câmeras espaciais de alta resolução e capazes de voar 
sobre uma plantação a poucos metros de altura, capturando imagens de alta definição. 
Isso permite que os sistemas automáticos monitorem o cultivo e a colheita de fazendas 
inteiras. Além disso, os VANT no campo de cultivo tem sido considerado um elemento vital 
para identificar as manchas de doenças foliares, permitindo que agricultores e especialistas 
tomem melhores decisões de gerenciamento. 

O reconhecimento de doenças nos estágios iniciais da epidemia permite um 
manejo mais eficiente dos insumos, uma vez que as doenças podem apresentar diferentes 
suscetibilidades ao princípio ativo do mesmo agrotóxico. Além disso, a identificação de 
doenças no campo é importante para o planejamento da próxima safra de soja. Inspeções 
regulares de plantio também são difíceis de realizar quando se cultivam grandes áreas. Para 
superar esses problemas, há uma motivação crescente para usar VANTs na agricultura, 
pois eles são capazes de sobrevoar campos em missões de coleta de dados, tornando 
viável o uso de sistemas de visão computacional para identificar doenças que afetam 
plantações em diferentes cultivares. 

Métodos de detecção remota usando diferentes tipos de tecnologias ópticas têm 
sido propostos para capturar imagens do campo em diversas faixas espectrais e aumentar 
a produtividade agrícola. Tecnologias de imagem incluem RGB [2], sensores de termografia 
[3], fluorescência de clorofila [4], LIDAR [5] e multi-hiperespectrais [6]. Para processar e 
analisar as imagens coletadas, métodos de aprendizagem de máquina [7] foram propostos 
para detectar doenças em plantas [8] [9] em várias culturas, usando imagens onde a 
iluminação de fundo e a reflexão podem ser bem controladas. No entanto, poucos estudos 
abordam o uso de imagens coletadas de VANTSs para identificação de doenças da soja no 
campo. Neste contexto, imagens remotas baseadas em VANT e algoritmos de aprendizagem 
de máquina foram propostos para identificar doenças na soja [10], [11]. 

Nos últimos anos, modelos de redes neurais convolucionais (RNCs) popularizaram- 
se devido aos resultados impressionantes em problemas de classificação de imagens. Tan 
et al. [12] propuseram uma rede neural para identificar doenças em sementes de soja. 
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Mohanty et al. [9] e Sladojevic et al. [13] treinaram diferentes abordagens de RNCs para 
classificação de imagens de doenças em diferentes espécies de plantas, no entanto, 
as imagens foram coletadas em condições controladas. Similarmente, uma rede neural 
convolucional foi usada em [14] para classificar para classificar três espécies diferentes de 
leguminosas (feijão branco, feijão vermelho e soja) a partir dos padrões das veias foliares. 
Em todos os trabalhos citados, as imagens das folhas foram previamente cortadas no 
campo e capturadas por uma câmera em laboratório. 

Redes neurais profundas e imagens capturadas em condições reais de campo 
sob diferentes condições de iluminação, tamanho de objetos e variações de fundo foram 
propostas em [15] para detectar 9 tipos diferentes de doenças e pragas em plantas de 
tomate e [16] para detectar doenças em 25 espécies de plantas, evitando assim o processo 
de coleta e análise de amostras no laboratório. Apesar disso, os autores utilizaram imagens 
coletadas por câmeras digitais, ao invés de imagens aéreas capturadas pelo VANT, o que 
dificulta a realização de inspeções regulares no campo quando as áreas de cultivo são 
grandes. Além disso, não foram encontrados estudos na literatura que abordem modelos de 
aprendizagem profunda utilizando imagens de VANT para detectar e classificar doenças da 
soja em condições reais de campo. Também não encontramos experimentos comparando 
diferentes parâmetros para ajuste fino e transferência de aprendizagem com modelos de 
aprendizagem profunda de última geração. 

Este artigo avalia quatro modelos de aprendizagem profunda para o reconhecimento 
automático de doenças foliares da soja, utilizando imagens capturadas a 2 metros acima 
do plantio com um DJI Phantom 3 Professional. Inicialmente, consideramos uma etapa de 
segmentação de imagens usando o método SLIC superpixels [17] para segmentar as folhas 
da planta nas imagens obtidas durante a inspeção de vôo. Em seguida, um engenheiro 
agrônomo identificou cada imagem da folha de soja em uma classe de doença específica 
para descrever exemplos de cada classe. A abordagem de avaliação proposta usa um 
conjunto de dados de imagens dividido em seis classes. Acurácia, tempo de treinamento 
e erro de aprendizado dos modelos de aprendizagem profunda são avaliados na tarefa 
de reconhecer as doenças foliares da soja. Essas doenças geralmente estão presentes 
em diversas regiões produtoras do mundo, causando perda de produtividade em diversas 


cultivares, como milho, soja, trigo e feijão. 


21 ABORDAGEM PROPOSTA 


Nesta seção, apresentamos um sistema de visão computacional para identificar 
doenças da soja a partir de imagens coletadas pelo VANT. A abordagem proposta adota 
o método SLIC superpixels para segmentar folhas de plantas nas imagens capturadas. O 
algoritmo SLIC foi escolhido por ser mais rápido com complexidade linear, mais eficiente 
em termos de memória do que métodos baseados em superpixels, e permite aderência de 
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última geração aos limites das imagens, superando os métodos existentes quando usados 
para segmentação de imagens, comparação feita em [17]. 

SLIC superpixels emprega o algoritmo k-means [18] para a geração de regiões 
semelhantes, chamadas superpixels. O parâmetro k refere-se ao número de superpixels 
na imagem e permite controlar o tamanho dos superpixels. SLIC agrupa regiões de pixels 
no espaço 5-D definido por |, a, b (valores da escala de cor CIELAB) e as coordenadas x 
e y dos pixels. Uma imagem de entrada é segmentada em regiões regulares, definindo o 
número Kk de superpixels com aproximadamente pixels, onde N é o número de pixels da 
imagem. Cada região compõe um superpixel inicial de dimensões S x S, onde S = fe Os 
centros dos agrupamentos de superpixel C, = [1 a, D, X, Y] com k=[1, K são amostrados 
em uma matriz regular espaçada em S pixels. Os centros são movidos para a posição 
de gradiente mais baixa em uma vizinhança de 3x3, evitando a alocação de centroides 
em uma borda e reduzindo a chance de semear um superpixel com um pixel ruidoso. 
Cada pixel é associado ao centro do agrupamento mais próximo, uma etapa de atualização 
ajusta os centros dos agrupamentos para serem o vetor médio /abxy de todos os pixels 
pertencentes ao agrupamento [17]. 

Um diagrama esquemático da abordagem proposta é mostrado na Figura 4.1. 
Ele ilustra o sistema proposto que consiste em 4 etapas: (a) aquisição de imagem, (b) 
segmentação SLIC, (c) conjunto de dados de imagens e, finalmente (d) classificação de 
doenças foliares. Inicialmente, a inspeção de voo foi conduzida com o VANT nos campos 
de soja para capturar imagens da plantação (veja o passo (a) na Figura 4.1). Essas imagens 
foram segmentadas usando o método SLIC superpixels (Figura 4.1-b). Após a segmentação 
da imagem, os segmentos foliares foram visualmente analisados por um especialista para 
compor um banco de dados de imagens de superpixel para treinamento e teste do sistema, 
veja etapa (c) da Figura 4.1. 

Neste caso, cada superpixel foi visualmente rotulado por um agrônomo em uma 
classe específica: ferrugem asiática, mancha-alvo, oídio, míldio, solo (exposto e palha) ou 
amostras de folhas saudáveis. Posteriormente, uma rede neural convolucional foi treinada 
para extrair os recursos visuais das imagens de superpixel e, finalmente, classificar as 
imagens de doenças da soja (ver passo (d) da Figura 4.1). Na etapa de pós-processamento, 
o sistema de visão computacional mostra os resultados visuais e quantitativos ao classificar 
os segmentos de uma imagem da plantação, o que possibilita calcular o nível de infestação 
de doenças de cada área da plantação, permitindo um manejo mais eficiente dos patógenos 


no campo. 
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(a) Image acquisition (b) SLIC segmentation (c) Image dataset 


INPUT CONVOLUTION + RELU POOLING CONVOLUTION + RELU POOLING FULLY CONNECTED SOFTMAX 


(d) Classification 


Figura 4.1 — Proposta do sistema de visão computacional para identificar doenças foliares da soja 
com imagens de VANT. (a) Aquisição de imagem. (b) Segmentação SLIC. (c) Conjunto de dados de 
imagem. (d) Classificação. 


Após a segmentação da imagem com o método de SLIC, os segmentos das folhas 
foram analisados visualmente por um especialista para compor um banco de imagens de 
superpixels para treinamento e teste do sistema, ver etapa (c) da Figura 4.1. Nesse caso, 
cada superpixel foi visualmente rotulado por um engenheiro agrônomo em uma classe 
específica: ferrugem asiática, mancha-alvo, míldio, oídio, solo (exposto e palha) ou amostras 
de folhas saudáveis. Subsequentemente, uma rede neural convolucional foi treinada para 
aprender as características visuais das imagens de superpixels e, finalmente, classificar as 
imagens de doenças da soja (ver passo (d) da Figura 4.1). Na fase de pós-processamento, 
o sistema de visão computacional mostra os resultados visuais e quantitativos ao classificar 
os segmentos de uma imagem da plantação. Isso possibilita o cálculo do nível de infestação 
de doenças em cada área de plantio, permitindo um manejo mais eficiente dos patógenos 
no campo. 


31 MATERIAIS E MÉTODOS 


3.1 Aquisição de Imagem 


As imagens das plantas de soja foram capturadas com o VANT Phantom 3 
Professional, equipado com um sensor Sony EXMOR de 1/2,3 polegadas e resolução de 
12,3 megapixels. Imagens digitais negativas (DNG) foram capturadas sob os alvos de 
interesse a 2 metros da plantação, usando um ângulo de 90º da câmera em relação ao solo. 
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Os alvos de interesse correspondem ao estrato superior da planta (folhas) que transportam 
as informações de doenças da soja. Neste caso, escolhemos dois metros porque valores 
menores causam o deslocamento da planta devido ao vento gerado pelas pás dos rotores, 
o que modifica substancialmente a posição inicial das folhas. Por outro lado, em valores 
mais altos, o tamanho da folha na imagem é gradualmente reduzido e, consequentemente, 
a resolução da imagem diminui, como relatado em [10]. 

As imagens foram capturadas em condições reais de campo em uma área de soja 
agrícola localizada na cidade de Dourados-MS, Brasil, com coordenadas geográficas 
22º6'22.77” de latitude sul e 54º15'20.05” de longitude oeste. Um total de 300 imagens 
aéreas foram coletadas em dias e condições climáticas diferentes, durante os estádios 
fenológicos R1 a R6 da fase reprodutiva da soja. Por esse motivo, as imagens capturadas 
pelo VANT contêm diversas variações indesejadas, como diferentes condições de 
iluminação e reflexão, tamanho e posição dos objetos, movimentação das folhas, oclusão, 
variações de fundo e estádios fenológicos da soja. Essas variações nas condições reais de 
campo contribuem para o sistema operar em um cenário real. 


3.2 Altura do VANT e Segmentação Foliar 


Para identificar as folhas das plantas nas imagens, cada imagem da plantação 
foi segmentada usando o método superpixel, de acordo com os parâmetros k e m que 
melhor ajustam a segmentação das folhas individuais. Para nossos experimentos, o valor 
de k = 2.000 foi ajustado para dividir uma imagem da plantação em 2.000 segmentos 
de superpixels. Este valor corresponde ao tamanho médio da segmentação de uma área 
foliar. O valor de m = 10 foi encontrado pela aderência aos limites de compactação dos 
segmentos de superpixel do algoritmo SLIC. 

Cada imagem tem uma dimensão de 4.000 x 3.000 pixels, totalizando 12.000.000 
pixels. Uma folha individual de soja a 2 metros de altura tem cerca de 6.000 pixels. Assim, o 
parâmetro de segmentação kfoi definido para 2.000 regiões; dividindo 12.000.000 de pixels 
por 2.000 regiões, obtemos 6.000 pixels para cada folha. Além disso, entre os estádios 
fenológicos R1 e R6 que são fases reprodutivas de alta incidência de doenças na soja, não 
houve variação significativa no tamanho das folhas. Assim, mantivemos os mesmos valores 
dos parâmetros k e m encontrados no algoritmo SLIC. Como resultado, 3.000 imagens 
de superpixels, incluindo 500 imagens para cada classe, foram distribuídas entre as seis 
classes de doenças de soja, solo e folhas saudáveis. A Figura 4.1(c) descreve exemplos 
de cada classe. 


3.3 Avaliação de Classificação 


Para a classificação de imagens, os modelos de aprendizagem profunda [14] são 
treinados com imagens rotuladas para aprender como identificá-las e classificá-las de 
acordo com os padrões visuais. Usamos implementações de código aberto compreendendo 
redes neurais convolucionais, incluindo Inception-v3 [19], VGG-19 [20], ResNet-50 [21] e 
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Xception [22], fornecidas como parte do módulo Keras e reconhecido como validação no 
ImageNet. Os parâmetros de implementação do Keras não foram variados para comparar 
os modelos de aprendizagem profunda sem ajustes. Usamos modelos de aprendizado 
supervisionado com conjuntos de treinamento e teste divididos em 70 % para treinamento e 
30% para teste. Três métricas foram utilizadas para avaliar o desempenho de cada modelo: 
acurácia, tempo de treinamento e erro de aprendizagem. Para analisar se os modelos 
diferem estatisticamente em relação ao seu desempenho, utilizamos o teste de hipótese de 
análise de variância (ANOVA). Relatamos os valores-p encontrados para cada métrica e o 
nível de significância necessário para descartar a hipótese nula. 

Nos experimentos, usamos os seguintes parâmetros de entrada. A largura e a 
altura da imagem de entrada foram igualmente definidas em 256. O tamanho do lote foi 
definido 16 imagens para treinamento e o número de épocas foi usado 50, uma vez que 
a convergência estava em algumas iterações. Usamos o otimizador SGD com taxa de 
aprendizado de 0,0001 e momentum de 0,9 (acelera o SGD na direção relevante e amortece 
as oscilações). A abordagem proposta usa um conjunto de 500 imagens por classe, o 
que pode não ser suficiente para treinar um modelo de aprendizagem profunda. Assim, o 
conjunto de dados foi submetido à técnica de aumento de dados (data augmentation) para 
aumentar a quantidade de dados aplicando operações de rotação, redimensionamento, 
rolagem e zoom. 

Esta técnica visa reforçar a invariância de rotação e invariância de escala na tarefa 
de classificação, uma vez que as imagens são capturadas pelo VANT em diferentes 
posições e escalas. A taxa de dropout usada nos experimentos foi fixada em 50%. Também 
mantivemos os mesmos parâmetros para o aumento de dados, isto é, reescalonamento de 
1./255 significando o fator de multiplicação para cada pixel da imagem, com flip horizontal, 
modo de preenchimento mais próximo (pontos fora dos limites de entrada são preenchidos 
de acordo com a direção mais próxima); faixa de fator de zoom 0,3, faixa de deslocamento 
de largura de 0,3 para fator de deslocamento horizontal e vertical, faixa de rotação de 30. 

Com o objetivo de avaliar estatisticamente o potencial dos modelos para identificação 
de doenças em campos de soja, definimos quatro diferentes estratégias de treinamento 
utilizando o Fine-Tuning (FT) com os pesos obtidos no ImageNet variando de 25% a 100%, 
com passo de 25%, para as camadas de rede. Também treinamos a rede completa com os 
pesos inicializados aleatoriamente (No TL), além da estratégia Transfer Learning (TL) [10] 
com os pesos obtidos no ImageNet. 

Em todos os nossos experimentos usamos uma workstation com processador Intel 
Core i7-6800K 3.40GHz 15MB (6N, 127), placa gráfica GeForce GTX 1070 8GB 1920 
núcleos cuda, memória RAM 16GB Kingston DDR4 2400MHz, SSD de armazenamento 
120GB de 2,5 "SATA III Kingston Ultra valor 400. 
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41 RESULTADOS EXPERIMENTAIS 


ATabela 1 mostra os resultados da acurácia obtidos pelos modelos de aprendizagem 
profunda. O maior valor da acurácia obtido por cada modelo é destacado na tabela. A Tabela 
1 também mostra o erro de aprendizado e o tempo total de treinamento, em segundos, 
para construir o modelo de classificação. Os resultados de tempo da Tabela 1 referem- 
se às especificações de hardware apresentadas na Seção 3.3. Execuções em diferentes 
configurações de máquinas podem interferir nos resultados apresentados. 


; Ea Tempo de a Erro de 
Arquitetura Estratégia treinamento (s) Acurácia (%) aprendizagem 
FT 100% 2558,91 98.87 0.0523 
FT 75% 2026,29 99.04 0.0490 
FT 50% 1812,23 97.22 0.1052 
Inception-V3 
FT 25% 1606,61 94.78 0.1645 
TE 1474,77 86.85 0.3869 
No TL 2558,97 95.75 0.1476 
FT 100% 3045,23 98.96 0.0414 
FT 75% 2392,65 99.02 0.0459 
FT 50% 2000,82 98.96 0.0421 
Resnet-50 
FT 25% 1759,21 98.79 0.0544 
TL 1493,96 96.95 0.1282 
No TL 3048,31 96.54 0.1106 
FT 100% 3926,62 99.02 0.0476 
FT 75% 3302,91 98.33 0.0569 
FT 50% 2535,51 98.27 0.0708 
VGG-19 
FT 25% 1945,43 96.37 0.1236 
TL 1736,97 77.53 0.6501 
No TL 3904,94 69.59 0.6855 
FT 100% 4548,38 98.56 0.0549 
FT 75% 3009,02 97.98 0.0796 
. FT 50% 2693,55 94.53 0.2356 
Xception 
FT 25% 2352,87 92.63 0.2700 
TIL 2000,16 86.69 0.3922 
No TL 4371,06 97.87 0.0796 


Tabela 1 — Métricas de desempenho utilizadas para avaliar as arquiteturas de aprendizagem profunda. 
Em nossos experimentos, o modelo Inception-v3 FT 75% obteve o maior valor 


de acurácia (99,04%), seguido de Resnet50, VGG-19 (99,02%) e Xception (98,56%). O 
Inception-v3 também obteve o menor tempo de treinamento, seguido pelo Resnet-50, VGG- 
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19 e Xception. Por meio do teste ANOVA, encontramos o valor-p de .412 e, portanto, não 
temos evidências de que haja uma diferença estatisticamente significativa no desempenho 
médio dos modelos testados em um nível de significância de 5%, usando a acurácia como 
métrica. Por outro lado, é importante destacar as implicações da escolha de um modelo 
de aprendizagem profunda e uma estratégia de treinamento. Por exemplo, na Tabela 1 o 
modelo VGG-19 treinado sem aprendizagem de transferência obteve acurácia de 69,59% 
versus 99,02% usando ajuste fino de 100%, resultando em uma diferença de 29,43%. Além 
disso, as estratégias de ajuste fino de 100% e 75% apresentaram taxas de classificação 
mais altas em comparação com outras estratégias de treinamento, mas obtiveram longos 
períodos de treinamento porque mais camadas são retreinadas usando essas estratégias. 

A Figura 4.2 mostra o intervalo da variação de desempenho obtido por cada modelo 
com o valor da mediana em destaque no diagrama boxplot. Segundo a figura, o Resnet-50 
apresentou o maior valor para a mediana e a dispersão de dados na melhor faixa de valores 


para acurácia em comparação aos demais modelos. 


100 - 

90- Model 
> . [e Inception-v3 
º 
5 EH Resnets0 
8 
ea ES vec19 

“a Xception 
70- 
Inception-V3  Resnet-50 VGG-19 Xception 
Model 


Figura 4.2 — Diagrama boxplot comparando os resultados da acurácia de cada modelo de 
aprendizagem profunda. 


A Figura 4.3 apresenta a matriz de confusão dos modelos de aprendizagem profunda. 
De acordo com a figura, as classes mancha-alvo/oídio e folha saudável/míldio obtiveram o 
maior número de ocorrências classificadas incorretamente, devido à maior similaridade dos 
padrões visuais existentes entre essas classes. Os sintomas iniciais do míldio são pontos 
verdes brilhantes de 3 a 5 mm no topo da folha que são difíceis de discriminar a partir 
de folhas saudáveis. As lesões da mancha-alvo começam com pontos marrons, com halo 
amarelado, evoluindo para grandes manchas circulares de marrom-claro a marrom-escuro, 
alcançando até dois centímetros de diâmetro. O oídio apresenta uma fina camada branca 
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nas folhas devido à cor branca do fungo, mas muda para uma cor marrom-acinzentada ao 


longo do tempo [23]. 
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Figura 4.3 — Matriz de confusão dos modelos de aprendizagem profunda. (a) Inception-v8. (b) 
Resnet-50. (c) VGG-19. (d) Xception. 


A Figura 4.4 mostra a etapa final do sistema de visão computacional classificando 


os segmentos de uma imagem da plantação capturada pelo VANT a 2 metros de altura. 


Aqui, usamos uma abordagem prática com o método SLIC para segmentação de imagens 


e o modelo Inception-v3 FT 75% para classificação de segmentos. No estágio de pós- 


processamento, um mapa colorido é gerado fornecendo uma classe por segmento. O 


resultado visual de cada classe é destacado na imagem pela cor que ela representa e o 


resultado quantitativo mostra o nível de infestação por classe. 
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Figura 4.4 — Validação de nossa abordagem de visão computacional em um campo de cultivo de soja. A 
Figura (a) mostra uma imagem aérea tirada a dois metros de altura usando o pequeno VANT Phantom 
3. No centro da imagem há uma mancha de oídio na cor acinzentada. A Figura (b) mostra a imagem do 
nosso sistema de visão computacional. O sistema apresenta o passo de segmentação da imagem da 
folha e a classificação dos superpixels usando o modelo Inception-v3. Os rótulos de cor representam 
as categorias do nosso problema. 
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A complexidade computacional do processo de segmentação, baseada no algoritmo 
SLIC, limita o espaço de busca a uma região proporcional ao tamanho do superpixel. Isso 
reduz a complexidade linear ao número de k superpixels, em vez do número de n pixels. 
No processo de classificação, o sistema percorre a imagem da esquerda para a direita, de 
cima para baixo, classificando cada superpixel individualmente, enquanto fornece a cor da 
classe simultaneamente. Nesse processo, a complexidade linear também é proporcional ao 
número de k superpixels k. 


51 CONCLUSÃO 


Neste artigo, avaliamos quatro modelos de aprendizagem profunda para a tarefa 
de reconhecer as doenças foliares da soja, utilizando imagens de VANT capturadas a 2 
metros acima do plantio. Consideramos uma etapa de segmentação de imagem com o 
algoritmo SLIC superpixels para detectar as folhas das plantas nas imagens. Na etapa de 
classificação, comparamos quatro modelos de aprendizagem profunda bem conhecidos 
na literatura: Inception-v3, Resnet-50, VGG-19 e Xception. Resultados experimentais 
mostraram que modelos de aprendizagem profunda levam a altas taxas de classificação, 
alcançando uma acurácia de até 99,04%. Além disso, em nossos experimentos, as 
estratégias de ajuste fino de 100% e 75% mostraram taxas de classificação mais altas em 
comparação com outras estratégias de treinamento. Os resultados indicam que os modelos 
avaliados podem apoiar os agricultores no monitoramento das doenças da soja. Também 
demonstramos como um modelo de aprendizagem profunda pode ser implementado em 
um sistema de visão computacional para operar em um ambiente de campo real, sob 
diferentes condições de iluminação, tamanho de objetos e variações de fundo. Como parte 
do trabalho futuro, pretendemos avaliar nossa abordagem com câmeras de alta resolução 
e multi-hiperespectrais. 
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RESUMO: Este artigo apresenta os resultados da avaliação de cinco arquiteturas de 
aprendizagem profunda para a tarefa de classificação de imagens de pragas herbívoras da 
soja. O desempenho das arquiteturas Inception-V3, Resnet-50, VGG-16, VGG-19 e Xception 
foi avaliado para diferentes estratégias de fine tuning e transfer learning em um conjunto 
de 5.000 imagens capturadas em condições reais do campo. Os resultados experimentais 
mostraram que as arquiteturas de aprendizagem profunda treinadas com fine tuning levam 
a taxas de classificação mais altas em comparação a outras abordagens, atingindo a TCC 
de até 93.82%. Além disso, as arquiteturas de aprendizagem profunda superaram nos 
experimentos os métodos de extração de atributos tradicionais, como SIFT e SURF com a 
abordagem histograma de palavras visuais, o método de aprendizado semi-supervisionado 
OPFSEMImst e os métodos de aprendizado supervisionados usados para classificar imagens, 
como SVM, AdaBooste Random Forest. Os resultados indicam que as arquiteturas avaliadas 
podem apoiar especialistas e agricultores no monitoramento dos níveis de ação de controle 
de pragas nos campos de soja. 

PALAVRAS-CHAVE: VANT, sensoriamento remoto, praga da soja, agricultura de precisão, 
aprendizagem profunda. 
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11 INTRODUÇÃO 


A soja vegetal (Glycine max [L.] Merrill) é uma oleaginosa com bom perfil 
nutricional e importante participação econômica mundial. A qualidade nutricional da soja é 
determinada pelo seu conteúdo de proteínas, ácido graxo insaturado, minerais, vitaminas, 
isoflavonas e outros oligoelementos encontrados nas sementes frescas (Hou et. al, 2011). 
Desde a semeadura até a colheita, a cultura da soja está sujeita ao ataque de herbívoros 
desfolhadores, como insetos, invertebrados e moluscos. Métodos de amostragem, como 
pano-de-batida, rede-de-varredura, exame visual de plantas, amostragem de solo e, mais 
recentemente, armadilha iscada com feromônio tem sido empregue para o monitoramento 
dos níveis de ação de controle de pragas nos campos de soja (Corrêa-Ferreira et. al, 
2012). A detecção precoce permite uma aplicação mais eficiente de pesticidas, visto que os 
insumos podem ser aplicados na medida e locais corretos, reduzindo-se assim os custos 
de produção e o impacto ambiental decorrente do uso excessivo de pesticidas, além de 
contribuir com a saúde humana e a segurança alimentar (Tetila et. al, 2019b). 

Como alternativa aos métodos de amostragens manuais, inovações tecnológicas 
têm ajudado a controlar pragas e aumentar a produção de alimentos no campo. VANTs 
equipados com câmeras de alta resolução espacial, em missões de coleta de dados, são 
capazes de sobrevoar uma plantação a poucos metros de distância e capturar imagens ricas 
em detalhes, o que tem ajudado a monitorar o cultivo e a colheita de propriedades agrícolas 
inteiras, com o auxílio da agricultura de precisão. Além disso, o alto custo de produtos 
químicos associados a ações de baixo impacto ecológico levam a melhores práticas da 
agricultura de precisão. Desse modo, o uso de VANTs em campos de cultivo tem sido 
considerado um importante instrumento para identificar pragas no campo, permitindo que 
especialistas e agricultores tomem melhores decisões de manejo. 

Nos últimos anos, várias arquiteturas de redes neurais popularizaram-se devido 
aos resultados impressionantes em problemas de detecção e classificação de imagens. 
Keyvan and Jafar (2013) propuseram uma rede neural artificial (RNA) de três camadas 
para identificação do inseto lepidóptero Spodoptera exigua de outras espécies de pragas. 
Do mesmo modo, uma RNA foi treinada por Leow et. al (2015) para a classificação de 
espécies de Copepod — um grupo de crustáceos muito importante da cadeia marinha. 
Em (Yaakob and Jain, 2012) uma RNA foi combinada com seis diferentes técnicas de 
momentos invariantes para extrair características de forma das imagens usadas na tarefa 
de reconhecimento de insetos. 

Redes neurais artificiais também foram projetadas em (Wang et. al, 2012) para 
identificação automática de espécies de insetos no nível de sua ordem. No trabalho de 
Wen et. al (2015) os autores treinaram uma rede neural convolucional para estimar a pose 
das mariposas coletadas no campo. Combinações de textura, cor, forma e características 
locais foram extraídas com base na pose específica da mariposa e utilizada como entrada 
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no modelo de aprendizagem profunda. Em (Al-Sager and Hassan et. al, 2011) uma RNA 
foi usada para reconhecer a presença do inseto Weevil Red Palm e o distinguir de outros 
insetos encontrados no habitat das palmeiras. Recentemente, Guoguo et. al (2017) 
propuseram um sistema de reconhecimento de pestes baseado na análise de saliência da 
imagem e um modelo de aprendizagem profunda para a tarefa de classificação de espécies 
de insetos nos campos de chá da China. 

Em todos os trabalhos citados, a aquisição de imagens não abrange as condições 
reais de campo, as quais fornecem várias condições de iluminação, como ângulos do 
sol, cobertura de nuvens e variações de fundo. Além disso, os autores não compararam 
os resultados com outras abordagens do estado da arte, como ResNet-50, VGG-19 e 
Inception-V3. Nesse contexto, uma abordagem baseada em aprendizagem profunda 
usando imagens capturadas em condições reais do campo, sob diferentes condições de 
iluminação, tamanho de objetos e variações de fundo foi proposta para detectar doenças 
e pragas em plantas de tomate (Fuentes et. al, 2017), na soja (Amorim W.P., 2019) e 
para a contagem automática de pragas da soja (Tetila E.C., 2019b). Machado et. al (2016) 
criaram um aplicativo móvel chamado BioLeaf baseado nas técnicas de segmentação de 
otsu e curvas de bezier para medir o dano das folhas de soja causado pela herbivoria de 
insetos. Uma revisão da literatura sobre classificação de insetos baseados em imagens, 
em que foram investigadas as questões que ainda podem permanecer não resolvidas foi 
apresentada em Martineau et. al (2017). 

Métodos de detecção remota, utilizando diferentes tipos de tecnologias ópticas, 
como imagens RGB (Tetila et. al, 2017; Tetila et. al, 2019a), sensores acústicos (Liu and 
Lee, 2017a), software de raio-X (Chelladurai et. al, 2014), termografia (Calderón et. al, 
2015; Oerke et. al, 2006; Mahlein et. al, 2012), ultravioleta (Liu et. al, 2017b; Peruca et. al, 
2017), fluorescência de clorofila (Calderón et. al, 2015; Mahlein et. al, 2012), LIDAR (Weiss 
et. al, 2010) e multi-hiperespectrais (Calderón et. al, 2015; Yanan et. al, 2014; Mahlein et. 
al, 2012; Lu et. al, 2018) têm sido propostos para capturar imagens do campo em faixas 
espectrais específicas para aumentar a produtividade agrícola. 

Em (Sirisomboon et. al, 2009) foi investigada a espectroscopia por refletância 
variando da luz visível (VIS) à região do infravermelho próximo (NIR) (600-1100nm) para a 
detecção de defeitos (externos e internos) nas vagens de soja verdes causados por insetos 
e doenças. Gedeon et. al (2017) descreveram o mecanismo de configuração e operação 
de um sensor optoeletrônico de raios infravermelho para detectar microartrópodes de 
solo na faixa de tamanho 0,4-10mm e estimar o comprimento corporal (tamanho) dos 
microartrópodes de solo em condições de campo. Em (Chelladurai et. al, 2014) foram 
usadas técnicas de imagem hiperespectral na região do infravermelho próximo (NIR) e 
software de raio-X para detectar a infestação de Callosobruchus maculatus na soja — uma 
praga de armazenamento que causa grandes perdas de armazenamento em leguminosas. 


Algoritmos de aprendizagem de máquina também foram propostos para detectar 
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espécies de insetos, como abelhas (da Silva et. al, 2015), invertebrados comuns (p. ex. 
borboletas, gafanhotos) e moluscos (p. ex. caracóis e lesmas) (Liu and Lee, 2017a), além 
de contar moscas brancas (Barbedo, 2014) e pulgões (Maharlooei, 2017; Shajahan, 2016) 
em folhas de soja. Imagens remotas baseadas em VANT foram propostos para identificar 
doenças na soja (Tetila et. al, 2017; Tetila et. al, 2019a; Brodbeck et. al, 2017) e também 
em citros (Garcia-Ruiz et. al, 2013). Em (dos Santos et. al, 2017) os autores usaram 
imagens de VANT e uma rede neural convolucional para detectar ervas daninhas na soja, 
diferenciando-as entre folhas estreitas e folhas largas, de modo a orientar a aplicação de 
herbicidas. Pantazi et. al (2017) relataram a detecção e o mapeamento de ervas daninhas 
usando um mapa auto-organizado hierárquico e uma câmera multiespectral montada em 
um VANT de asa fixa. No entanto, não foi encontrado na literatura estudos que abordem o 
uso de imagens de VANTSs para detecção de pragas da soja no campo. 

Neste artigo foram comparadas cinco arquiteturas de aprendizagem profunda para 
a tarefa de detectar e classificar imagens de herbívoros desfolhadores da soja coletadas 
em condições reais do campo. Inicialmente, considerou-se um passo de segmentação 
de imagem usando o algoritmo SLIC superpixels (Achanta et. al, 2012) para identificar 
individualmente o herbívoro nas folhas das plantas, obtido durante a etapa de aquisição de 
imagens. Durante a fase de inspeção foram capturadas imagens aéreas usando um VANT 
de baixo custo bastante conhecido no mercado, modelo DJI Phantom 4 Advanced. Depois, 
um biólogo entomologista rotulou cada imagem de herbívoro para identificar a sua classe 
específica e descrever exemplos de cada classe. 

A metodologia avalia cinco arquiteturas de aprendizagem profunda e as compara 
com outros algoritmos do estado da arte. A abordagem proposta utiliza um conjunto de 
5.000 imagens, dividido em 13 classes: Acrididae, Anticarsia gemmatalis, Coccinellidae, 
Diabrotica speciosa, Edessa meditabunda, Euschistus heros (adulto), Euschistus heros 
(ninfa), Gastropoda, Lagria villosa, Nezara viridula (adulto), Nezara viridula (ninfa), 
Spodoptera spp. e sem presença de herbívoros — para medir a TCC, o tempo de 
treinamento e o erro de aprendizagem das arquiteturas de aprendizagem profunda na 
tarefa de classificação de herbívoros desfolhadores da soja. Essas espécies de herbívoros 
costumam estar presentes em várias regiões produtoras do mundo inteiro, frequentemente 


ocasionando perda de rendimento em cultivares, como soja, milho, trigo e feijão. 


21 SIMPLE LINEAR ITERATIVE CLUSTERING (SLIC) 


O algoritmo Simple Linear lIterative Clustering (SLIC) agrupa regiões de pixels no 
espaço 5-D definido por L, a, b (valores da escala CIELAB de cor) e as coordenadas x e 
y dos pixels. Uma imagem de entrada é segmentada em regiões retangulares, definindo o 
número Kk de superpixels com aproximadamente pixels, onde N é o número de pixels da 


imagem. Cada região compõe um superpixel inicial de dimensões S x S, onde S = Je Os 
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centros dos agrupamentos de superpixel C, = [|,, a, D,, X, Y] com k=[1, k são escolhidos, 
espaçados em uma matriz regular para formar os agrupamentos de tamanho aproximado 
S?. Os centros são movidos para o valor de menor gradiente sobre uma vizinhança de 3x3 
pixels, evitando a alocação de centroides nas regiões de borda que tenham pixels ruidosos. 
Em vez de usar uma norma euclidiana simples no espaço 5D, uma medida de distância D, 
é definida da seguinte forma: 


dub = (le- li)? + (ap- ai)? + (by- bj)? (1) 
do = (Xe x)? + (Yk — Yi)? (2) 
D, =dub+ E * dy (3) 


onde D, é a soma da distância d,, 


(Equação 1) e a distância dy (Equação 2), 
normalizada pelo intervalo S. O parâmetro m corresponde ao controle de compactação 
de superpixel; quanto maior o seu valor, mais compacto é o agrupamento em termos de 
proximidade espacial. Cada pixel da imagem é associado ao centroide mais próximo de 
um grupo e, depois de todos os pixels estarem associados a um centroide, um novo centro 
é calculado com o vetor Labxy de todos os superpixels pertencentes ao grupo. No final 
do processo, alguns pixels podem estar conectados a um grupo incorretamente, então 
o algoritmo reforça a conectividade na última etapa, atribuindo os pixels sozinhos aos 


maiores grupos vizinhos (Achanta et. al, 2012). 


31 APRENDIZAGEM PROFUNDA 


A aprendizagem profunda permite que modelos computacionais compostos por 
múltiplas camadas de processamento aprendam representações de dados com múltiplos 
níveis de abstração. Esses métodos melhoraram consideravelmente o estado da arte no 
reconhecimento da fala (Hinton et. al, 2012), reconhecimento de objetos visuais (Wang and 
Yeung, 2013), detecção de objetos (Girshick et. al, 2014), segmentação (Long et. al, 2015), 
classificação de vídeo (Karpathy et. al, 2014) e muitos outros domínios. A aprendizagem 
profunda é capaz de descobrir a estrutura complexa em grandes conjuntos de dados 
usando o algoritmo backpropagation para indicar como uma máquina deve mudar seus 
parâmetros internos que são usados para calcular a representação em cada camada da 
representação na camada anterior (LeCun et. al, 2015). 

Diversas arquiteturas de aprendizagem profunda foram propostas na última década 
para a classificação de imagens em conjunto de dados públicos, como PASCAL VOC e 
ImageNet (ImageNet, 2016). Essas arquiteturas geralmente são avaliadas e comparadas 
em cima desses conjuntos de dados e concentram-se em encontrar redes neurais 
convolucionais de maior desempenho. As melhorias na qualidade da arquitetura da rede 
geralmente transferem os ganhos de desempenho significativos para uma ampla variedade 
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de domínios de aplicação que dependem cada vez mais de recursos visuais aprendidos 
de alta qualidade. A seguir são apresentadas cinco arquiteturas de aprendizagem profunda 
conhecidas da literatura e bastante utilizadas nas tarefas de visão computacional. 

VGGNet (Simonyan and Zisserman, 2014) utiliza uma arquitetura com filtros de 
convolução muito pequenos (3 x 3), o que mostra que uma melhoria significativa sobre 
as configurações do estado da técnica pode ser alcançada empurrando a profundidade 
para 16-19 camadas de peso. Essas descobertas asseguraram o primeiro e o segundo 
lugar nas trilhas de localização e classificação, respectivamente, no conjunto de dados 
do ImageNet Challenge 2014 (Russakovsky et. al, 2015). Além disso, as representações 
VGG-16 e VGG-19 generalizam bem outros conjuntos de dados, obtendo bons resultados 
de desempenho em visão computacional. 

ResNet-50 (He, 2016) apresenta uma estrutura de aprendizagem residual para 
facilitar o treinamento de redes que são substancialmente mais profundas do que as redes 
usadas anteriormente. A rede reformula explicitamente as camadas como funções residuais 
de aprendizagem com referência às entradas de camada, em vez de aprender funções não 
referenciadas. Essas redes residuais são mais fáceis de otimizar e podem ganhar precisão 
a partir do aumento considerável da profundidade. No conjunto de dados ImageNet, redes 
residuais com profundidade de até 152 camadas (8 vezes mais profundas que as redes 
VGG) foram avaliadas e, mesmo assim, apresentaram menor complexidade. Um conjunto 
destas redes residuais atingiu 3,57% de erro no conjunto de teste ImageNet. Este resultado 
ganhou o 1º lugar na tarefa de classificação ILSVRC 2015 (Russakovsky et. al, 2015). 

Inception (Szegedy, 2016) explora maneiras de ampliar redes de forma que visem 
a utilização da computação adicional tão eficientemente quanto possível por meio de 
convoluções devidamente fatoradas e regularização agressiva. O custo computacional do 
Inception é muito menor do que outras arquiteturas, como VGGNet ou seus sucessores de 
maior desempenho (He et. al, 2015). A arquitetura Inception da GoogLeNet (Szegedy et. al, 
2015) foi projetada para funcionar bem mesmo sob restrições rigorosas de memória e custo 
computacional. Por exemplo, a GoogleNet emprega cerca de 7 milhões de parâmetros, o 
que representa uma redução de quase 9 vezes em relação ao seu antecessor AlexNet, 
que usa 60 milhões de parâmetros. Além disso, VGGNet emprega cerca de 3 vezes mais 
parâmetros do que AlexNet. Isso tornou viável a utilização das redes Inception em cenários 
de big data, onde uma grande quantidade de dados precisa ser processada a um custo 
razoável ou cenários em que a memória ou a capacidade computacional são inerentemente 
limitadas. No entanto, a complexidade da arquitetura Inception torna difícil fazer alterações 
na rede. Se a arquitetura é aumentada de maneira espontânea, grandes partes dos ganhos 
computacionais podem ser imediatamente perdidos. Isso torna muito mais difícil adaptá-lo 
a novos casos de uso, mantendo a sua eficiência. 

Xception (Chollet, 2017) é uma arquitetura de rede neural convolucional que utiliza 
36 camadas convolucionais para formar a base da extração de recursos da rede. As 36 
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camadas convolucionais são estruturadas em 14 módulos, todos com conexões residuais 
lineares em torno delas, com exceção do primeiro e último módulo. Primeiro, os dados 
passam pelo fluxo de entrada, depois pelo fluxo médio que é repetido oito vezes e, finalmente, 
pelo fluxo de saída. As camadas de convolução separáveis em profundidade com conexões 
residuais torna a arquitetura muito fácil de definir e modificar; leva apenas 30 a 40 linhas de 
código usando uma biblioteca de alto nível, como Keras (Chollet, 2015) ou TensorFlow-Slim 
(Guadarrama and Silberman, 2016), não muito diferente de uma arquitetura como o VGG- 
16 (Simonyan and Zisserman, 2014), mas sim de arquiteturas, como Inception V2 ou V3 
que são muito mais complexas para definir. Xception tem o mesmo número de parâmetros 
que o Inception V3, mas o supera no conjunto de dados do ImageNet devido a utilização 
mais eficiente dos parâmetros do modelo. 


41 ABORDAGEM PROPOSTA 


Esta seção apresenta uma abordagem de visão computacional para identificar 
imagens de pragas da soja coletadas em condições reais de campo. A abordagem proposta 
adota o método SLIC superpixels para segmentar as pragas nas imagens. O método SLIC 
emprega o algoritmo k-means (Hartigan and Wong, 2013) para a geração de regiões 
semelhantes, chamadas superpixels. O parâmetro k do algoritmo refere-se ao número de 
superpixels na imagem e permite controlar o tamanho dos superpixels. O parâmetro m 
corresponde ao controle de compactação das regiões geradas. Superpixels quadrados 
significa alto valor de compactação para o parâmetro m. Definimos os parâmetros k = 200 
e m = 50 para segmentar as pragas nas imagens, definidas pela adesão aos limites de 
tamanho e compacidade do algoritmo SLIC. Esses parâmetros correspondem ao menor 
tamanho de superpixel encontrado para segmentar o maior objeto de interesse na imagem. 
Neste caso, os insetos-praga das espécies Spodoptera spp. e Anticarsia gemmatalis. 

Um diagrama esquemático do sistema proposto é mostrado na Figura 5.1. Ela ilustra 
a metodologia que consiste de cinco etapas: (a) aquisição de imagens, (b) segmentação 
SLIC, (c) conjunto de imagens, (d) extração de atributos e, finalmente, (e) classificação de 
herbívoros-pragas. Inicialmente, uma inspeção de voo a 2 metros de altura foi conduzida 
com o VANT nos campos de soja para capturar imagens da plantação (ver passo (a) na 
Figura 5.1). Essas imagens foram segmentadas usando o método SLIC superpixels. Cada 
segmento de superpixel foi classificado visualmente em uma classe de herbívoro específica. 
O valor de k foi ajustado para dividir a imagem em k segmentos de superpixels de acordo 
com o tamanho aproximado da segmentação de um herbívoro na imagem (Figura 5.1(b)). 
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(a) Image acquisition (b) SLIC segmentation (c) Image dataset 
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(d) Feature extraction (e) Classification 


Figura 5.1 — Proposta do sistema de visão computacional para identificar pragas da soja usando 
aprendizagem profunda com imagens de VANT. 


Após a segmentação da imagem com o método de SLIC, os segmentos pertencentes 
à classe de herbívoro foram visualmente analisados por um especialista para compor 
um banco de imagens de superpixels para treinamento e teste do sistema, ver etapa (c) 
da Figura 5.1. Neste caso, um biólogo entomologista foi responsável pela avaliação da 
representatividade da amostra para a análise estatística. Subsequentemente, uma rede 
neural convolucional foi treinada para aprender as características visuais das imagens de 
superpixels (ver passo (d) da Figura 5.1) e classificar as imagens de espécies de herbívoros 
da soja (ver passo (e) da Figura 5.1). A etapa final mostra o resultado de TCC, o erro de 
aprendizagem e o tempo de treinamento de cada arquitetura de aprendizagem de máquina 


avaliada pelo nosso sistema de visão computacional. 


51 MATERIAIS E MÉTODOS 


Uma área experimental de 2 hectares foi semeada com cultivares de soja 
convencional e ausência de aplicação de pesticidas. A área agrícola mostrada na Figura 
5.2 é situada na fazenda experimental da UFGD, localizada no município de Dourados-MS, 
Brasil, com coordenadas geográficas 22º13'57.52” latitude Sul e 54º59'17.93” longitude 
Oeste. 
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Figura 5.2 — Visão aérea da área experimental utilizada para o plantio de soja. 


Duas abordagens diferentes foram utilizadas para coletar imagens de herbívoros 
presentes no campo experimental. Primeiro, utilizou-se uma câmera Sony equipada 
com o sensor IMX260 de 12 megapixels de resolução. Um total de 5.000 imagens no 
formato JPG foi coletado em dias e condições climáticas diferentes, entre 8h e 10h e 
17h e 18h:30min, no decorrer dos estádios fenológicos R4 e R6 da fase reprodutiva da 
soja, durante a safra Set/2017-Fev/2018. No campo experimental, constatou-se que a 
exposição dos herbívoros no topo das plantas geralmente ocorre no início do dia ou no 
final da tarde, reforçando a recomendação de que amostragens de herbívoros da parte 
aérea sejam realizadas, preferencialmente, nos períodos mais frescos e úmidos do dia, 
conforme relatado em (Corrêa-Ferreira et. al, 2012). Essas imagens foram capturadas pelo 
pesquisador no local, usando a câmera a 50cm de distância sobre o alvo de interesse e 
um ângulo de 0º da câmera em relação ao solo. Os alvos, neste caso, correspondem aos 
herbívoros desfolhadores que ocasionam dano econômico quando encontrados em níveis 
elevados nos campos de soja. Em seguida, cada imagem foi anotada com apoio de um 
biólogo entomologista, construindo assim, uma coleção de referências de superpixels para 
o conjunto de imagens de treinamento e teste do sistema (veja a Figura 5.3), denominado 
INSECT5K13C e disponível em (Tetila E.C., 2018). O número desigual de amostras usadas 
no conjunto de imagens de treinamento e teste reflete o número de ocorrências de cada 
espécie de praga em condições reais de campo. 

Na segunda abordagem, 300 imagens aéreas (JPG) foram capturadas a 2 metros de 
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altura da plantação, usando o VANT DJI Phantom 4 Advanced, equipado com uma câmera 
Sony CMOS de 1 polegada e 20 megapixels de resolução. Nesse caso, a altura de dois 
metros foi escolhida porque valores menores causam o deslocamento das plantas devido 
ao vento gerado pelos rotores, o que modifica substancialmente o posicionamento inicial 
das pragas. Por outro lado, para valores mais altos, o tamanho das pragas nas imagens é 
gradualmente reduzido e, consequentemente, a resolução da imagem das pragas diminui. 

Embora não tenhamos avaliado a vibração do drone na qualidade das imagens 
aéreas neste trabalho, acreditamos que a influência é mínima porque a câmera do VANT 
geralmente possui um obturador com velocidade muito rápida para a captura de imagens 
(por exemplo, Phantom 4 - Velocidade do obturador eletrônico: 8s a 1/8000s). Publicamos 
um artigo em (Tetila et. al, 2017) que aborda a identificação de doenças da soja usando 
imagens de VANT. Os resultados indicam que há uma grande influência da resolução da 
imagem no sistema de identificação. Quanto maior a distância entre a câmera e os alvos 
de interesse, menor a acurácia do sistema de identificação. 

As imagens aéreas capturadas pelo VANT são georreferenciadas. Cada imagem 
possui coordenadas geográficas de latitude sul, longitude oeste e altitude. A localização 
das pragas identificadas nas imagens deve ser incluída para fornecer informações úteis 
para aplicações específicas do local. As imagens de VANT não compreendem nossos 
conjuntos de treinamento e teste devido à limitação encontrada para identificar visualmente 
as pragas nas imagens. Apesar disso, discutimos na Seção 6.3 a detecção de pragas da 
soja com imagens de VANT para altitudes mais altas. 
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Acrididae 


38 images 


Anticarsia 
gemmatalis 


130 images 


Coccinellidae 
133 images 


Diabrotica 
speciosa 


112 images 


Edessa 
meditabunda 


127 images 


Euschistus heros 
adult 


711 images 


Euschistus heros 
nymph 


827 images 


Gastropoda 
198 images 


Lagria villosa 


80 images 


Nezara viridula 
adult 


134 images 


Nezara viridula 
nymph 


25 images 


No herbivorous 


2,208 images 


Spodoptera spp. 
277 images 


Figura 5.3 — Amostras de imagens de superpixels do nosso conjunto de imagens, dividido em espécies 
de pragas da soja e números de imagens por classe. As imagens foram coletadas em condições reais 
do campo, as quais fornecem várias condições de iluminação, como ângulos do sol e cobertura de 
nuvens, tamanho e posicionamento de objetos, oclusão, variações de fundo, fases de acasalamento e 
desenvolvimento. 
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Para a classificação de imagens, as arquiteturas de aprendizagem profunda usam 
as imagens rotuladas para identificar e classificar de acordo com os padrões visuais. Aqui, 
utilizou-se as implementações de código aberto das arquiteturas Xception, Inception-V3, 
VGG-16, VGG-19 e Resnet-50 que são fornecidas como parte do módulo de aplicativos do 
Keras, sob a licença MIT. Empregou-se modelos de aprendizagem supervisionados com 
conjuntos de treinamento e teste divididos em 70% para o treinamento e 30% para o teste. 
Nos experimentos, usamos os seguintes parâmetros de entrada. A largura e a altura da 
imagem de entrada foram igualmente definidas em 256. O tamanho do lote foi definido em 
16 imagens para treinamento e o número de épocas foi usado 50. Utilizamos o otimizador 
SGD com taxa de aprendizado de 0,0001 e momento de 0,9 (acelera o SGD na direção 
relevante e amortece as oscilações). 

Depois, o conjunto de dados foi submetido à técnica de aumento de dados (data 
augmentation) para aumentar a quantidade de dados aplicando as operações de rotação, 
reescala, deslocamento e zoom. Estatécnica tem o objetivo de reforçar a invariância à rotação 
e a invariância à escala da imagem na tarefa de classificação, uma vez que as imagens 
são capturadas pelo VANT em diferentes ângulos e escalas. Também foram mantidos 
os mesmos parâmetros para o data aumentation: rescale=1./255 (fator de multiplicação 
para cada pixel da imagem); horizontal flip=True (alterna aleatoriamente as imagens 
horizontalmente); fill mode=”nearest” (pontos fora dos limites de entrada são preenchidos 
de acordo com o sentido mais próximo); zoom range=0.3 (fator de ampliação de imagem); 
width shift range=0.3 (fator de deslocamento horizontal); higth shift range=0.3 (fator de 
deslocamento vertical); rotation range=30 (fator de rotação de imagem). 

Utilizamos duas estratégias de taxas de fixação das redes neurais com os pesos 
obtidos no conjunto de dados ImageNet para avaliar cada arquitetura e seu comportamento 
durante o processo de treinamento. 


* Transfer Learning (transferência de aprendizagem): dado um domínio de 
origem D, e a tarefa de aprendizagem T,, um domínio de destino D, e tarefa 
de aprendizagem T., transfer learning visa ajudar a melhorar a aprendizagem 
da função preditiva de destino f,(:) em D, usando o conhecimento em D, e T,, 
onde D,z D, ou T,+T. (Pan and Yang, 2010). Nesta definição, o conhecimento 
adquirido em uma determinada tarefa, em um determinado domínio, pode ser 
aproveitado para melhorar a aprendizagem da função preditiva em uma outra 
tarefa, em um outro domínio. 


*- Fine Tuning (ajuste fino): refere-se à reutilização de valores de parâmetros 
estimados em conjuntos de dados potencialmente grandes como a inicialização 
em aplicações com acesso limitado a dados rotulados (Kading et. al, 2016). 
Esta estratégia não só substitui e retreina o classificador no conjunto de dados, 
mas também afina os pesos da rede neural pré-treinada por meio do algoritmo 
backpropagation. É possível afinar todas as camadas da rede neural ou man- 
ter algumas das camadas anteriores fixadas e apenas ajustar a parte de nível 


Capítulo 5 


83 


superior da rede. 


Com o objetivo de avaliar o potencial das arquiteturas para a classificação de imagens 
de herbívoros nos campos de soja, definiu-se quatro estratégias diferentes de treinamento 
utilizando a abordagem fine-tuning com os pesos obtidos do ImageNet, variando de 25% até 
100%, com passo de 25%, para as camadas da rede. A rede completa também foi treinada 
com os pesos inicializados aleatoriamente, além da abordagem transfer learning com os 
pesos obtidos do ImageNet. Nos experimentos, utilizou-se para a tarefa de classificação 
cinco arquiteturas conhecidas em aprendizagem profunda e reconhecidas pela competição 
no ImageNet: Inception-V3 (Szegedy, 2016), VGG-19 (Simonyan and Zisserman, 2014), 
VGG-16 (Simonyan and Zisserman, 2014), ResNet-50 (He, 2016) e Xception (Chollet, 
2017). 

Na tarefa de classificação, submeteu-se às arquiteturas de aprendizagem profunda 
as imagens capturadas. Três métricas foram utilizadas para avaliar o desempenho das 
arquiteturas: TCC, tempo de treinamento e erro de aprendizagem. Para avaliar se as 
arquiteturas treinadas diferem estatisticamente em relação ao desempenho, considerando- 
se cada uma das métricas avaliadas e o conjunto de dados de imagem, utilizou-se o teste 
de hipóteses ANOVA e o diagrama de caixa (boxplot) no software estatístico RStudio, 
versão 1.0.136. Os valores-p encontrados para cada métrica e o nível de significância 
necessário para descartar a hipótese nula também foram relatados. Por fim, os valores-p 
foram analisados com o teste de Tukey. 

Em todos os experimentos, adotou-se uma estação de trabalho (workstation) com as 
configurações de hardware descritas na Tabela 5.1. 


Componente Especificação 
Processador Intel Core i7-6800K 3.40GHz 15MB (6N, 12T) 
Placa de vídeo Geforce GTX1070 8GB 1920 cuda cores 
Memória RAM 16GB Kingston DDR4 2400MHz 
Armazenamento SSD 120GB 2.5"SATA III Kingston UV400 


Tabela 5.1 - Especificações técnicas de hardware da estação de trabalho. 


61 RESULTADOS E DISCUSSÃO 


Esta seção descreve os resultados obtidos pela abordagem proposta, seguidos por 
uma discussão. 


6.1 Avaliação de Classificação 


A Figura 5.4 mostra os resultados de TCC obtidos pelas arquiteturas de 
aprendizagem profunda no conjunto de teste, considerando os valores da Tabela 5.2. O 
maior valor absoluto de TCC obtido por cada arquitetura está em destaque na tabela. A 
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Tabela 5.2 também mostra o erro de aprendizagem e o tempo total de treinamento, em 
segundos, para construir o modelo de classificação. Os resultados de tempo da Tabela 5.2 
são referentes às especificações de hardware apresentadas na Tabela 5.1. Execuções em 
diferentes configurações de máquina podem interferir nos resultados apresentados. 


100 - 
90 - 
Architecture 
a o! PD inception-va 
E) ol Resnet-50 
5 
3 EH voc: 
< 70- EH vccs 
El Xception 
60 - 
50 - 
Inception-v3  Resnet-50 VGG-16 VGG-19 Xception 
Architecture 


Figura 5.4 — Maior valor absoluto de TCC obtido por cada arquitetura. 


Nos experimentos, a arquitetura Resnet-50 obteve o maior valor absoluto de 
TCC (93.82%), seguida pelas arquiteturas Inception-V3 (91.87%), VGG-16 (91.80%), 
VGG-19 (91.33%) e Xception (90.52%). A arquitetura VGG-16 obteve menor tempo de 
treinamento, seguida pelas arquiteturas VGG-19, Resnet-50, Inception-V3 e Xception. Os 
resultados indicam que não existe diferença estatisticamente significativa de TCC entre 
as arquiteturas investigadas. Esses resultados foram confirmados pelo teste de hipóteses 
ANOVA (valor-p=0.0732). 
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Ardúlisiurá Estratégia de Tempo de TCC Erro de 
q treinamento treinamento (s) (%) aprendizagem 
Fine tuning 100% 5,066.99 91.26 0.3195 
Fine tuning 75% 5,077.51 91.60 0.3297 
Fine tuning 50% 5,064.74 91.80 0.3136 
. Fine tuning 25% 5,077.79 91.87 0.3064 

Inception-V3 
Transfer learning 4,504.44 61.49 1.2493 
No Transfer learning 4,633.00 55.91 1.4025 
Fine tuning 100% 4,977.64 93.55 0.2535 
Fine tuning 75% 4,981.61 93.48 0.2564 
Fine tuning 50% 4,968.79 93.82 0.2410 
Fine tuning 25% 4,975.51 92.88 0.2684 

Resnet-50 ESSES | SC DE CS 
Transfer learning 4,885.96 64.85 1.1051 
No Transfer learning 4,575.90 67.34 1.0690 
Fine tuning 100% 4,884.36 91.80 0.3098 
Fine tuning 75% 4,891.02 90.86 0.3577 
Fine tuning 50% 4,895.05 90.59 0.3633 
Fine tuning 25% 4,887.41 91.26 0.3722 

VGG-16 
Transfer learning 4,858.54 51.81 1.5225 
No Transfer learning 4,470.05 45.90 1.6980 
Fine tuning 100% 4,904.61 90.19 0.3625 
Fine tuning 75% 4,904.16 91.26 0.3422 
Fine tuning 50% 4,909.60 91.33 0.3241 
Fine tuning 25% 4,910.54 90.66 0.3562 

VGG-19 
Transfer learning 4,883.55 50.47 1.6162 
No Transfer learning 4,486.60 44.29 1.8172 
Fine tuning 100% 5,347.77 89.65 0.3776 
Fine tuning 75% 5,330.41 90.52 0.3283 
Fine tuning 50% 5,364.83 89.92 0.3815 

Xception Fine tuning 25% 5,357.58 90.46 0.3740 
Transfer learning 4,513.90 65.52 1.1209 
No Transfer learning 5,193.43 74.60 0.8430 


Tabela 5.2 - Métricas de desempenho utilizadas para avaliar as arquiteturas de aprendizagem profunda. 


A Figura 5.5 mostra os resultados de TCC de cada arquitetura de aprendizagem 
profunda com o valor da mediana em destaque no diagrama boxplot. O diagrama também 
mostra o intervalo da variação de desempenho obtido por cada arquitetura. A arquitetura 
Resnet-50 apresentou o maior valor absoluto para a mediana; Resnet-50 e Xception 
apresentaram dispersão de dados na melhor faixa de valores para a TCC em comparação 
as demais arquiteturas. 
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Figura 5.5 — Diagrama boxplot comparando os resultados de TCC de cada arquitetura de aprendizagem 
profunda. 


De maneira análoga, a Figura 5.6 mostra os resultados de TCC e o intervalo da 
variação de desempenho de cada estratégia de treinamento. Conforme a Figura 5.6, as 
estratégias de fine tuning (FTuning25, FTuning50, FTuning75 e FTuning100) apresentaram 
maior valor absoluto para a mediana e dispersão de dados na melhor faixa de valores para 
a TCC em comparação às estratégias treinadas com ou sem transfer learning (TrLearning e 
NoTrLearning). Todas as comparações entre as estratégias de fine tuning e transfer learning 
resultaram em valores-p <= 0.0000002. Logo é possível rejeitar a hipótese nula com o nível 
de significância de 0,05 e concluir que existe uma diferença estatisticamente significativa 
de TCC entre as estratégias treinadas com fine tuning e transfer leaming. Por outro 
lado, não existe uma diferença significativa entre as estratégias de fine tuning (valores-p 
>=0.9999997) ou entre transfer learning e no transfer learning (valor-p=0.9992375). 
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Figura 5.6 — Diagrama boxplot comparando os resultados de TCC de cada estratégia de aprendizagem 
profunda. 


Enfatizamos a importância de escolher corretamente a estratégia usada no 
treinamento de arquiteturas de aprendizado profundo. Por exemplo, na Tabela 2, a 
estratégia NoTrLearning treinada pela arquitetura VGG-16 obteve acurácia de 45,90% 
contra 91,80% usando a estratégia FTuning100%, resultando em uma diferença de 
45,90%. O treinamento NoTrLearning considera o treinamento completo em rede com 
pesos inicializados aleatoriamente. Os resultados de não transferência de aprendizagem 
da Tabela 2 indicam que a acurácia dessa estratégia é menor porque ela não reutiliza os 
valores dos parâmetros pré-treinados em um conjunto de dados potencialmente grande 
(por exemplo, ImageNet) como inicialização em novas aplicações. No caso do ajuste fino, 
essa estratégia não apenas substitui e treina novamente o classificador no conjunto de 
dados, mas também ajusta os pesos da rede neural pré-treinados com o algoritmo de 
retropropagação. É possível ajustar todas as camadas da rede neural (FTuningt00%) ou 
manter algumas das camadas anteriores fixas (por exemplo, FTuning50% ou FTuning25%) 
e ajustar apenas a parte de nível superior da rede. Isso é motivado pela observação de 
que as camadas anteriores de uma rede neural aprendem recursos mais genéricos (por 
exemplo, detectores de borda ou detectores de cores) que podem ser úteis em muitas 
tarefas, mas as últimas camadas da rede tornam-se progressivamente mais específicas 
aos detalhes das classes contidas no conjunto de dados original. 

A Figura 5.7 apresenta a matriz de confusão da arquitetura de aprendizagem 
profunda Resnet-50, treinada com fine tuning 50%, uma vez que essa arquitetura forneceu 
o maior valor absoluto de TCC entre as arquiteturas treinadas. De acordo com a figura, 
as classes Euschistus heros adulto e Euschistus heros ninfa, representadas pelas letras 
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Fe G, obtiveram maior número de instâncias classificadas incorretamente em virtude da 
dificuldade em discriminar as fases ninfas (de 1º ao 5º ínstar) da fase adulto do ciclo de 
desenvolvimento do inseto. Essas duas classes pertencem a mesma espécie do inseto 


Euschistus heros, o que contribui para a maior semelhança dos padrões visuais existente 


entre essas classes. 
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A = Acrididae H= Gastropoda 

B = Anticarsia gemmatalis |=Lagria villosa 

C = Coccinellidae J = Nezara viridula adulto 
D = Diabrotica speciosa K = Nezara viridula ninfa 
E = Edessa meditabunda L = No herbivorous 

F = Euschistus heros adulto M = Spodoptera spp. 


G = Euschistus heros ninfa 


Figura 5.7 — Matriz de confusão da arquitetura Resnet-50. A maior acurácia foi alcançada com a 
arquitetura Resnet-50, usando a estratégia de treinamento fine tuning 50%. 


6.2 Comparação com outras abordagens do estado da arte 


Neste experimento, a abordagem proposta é comparada com outras abordagens 
do estado da arte: descritores locais SIFT (Lowe D.G., 1999) e SURF (Bay et. al, 2008), 
algoritmos de classificação supervisionados (SVM, Random Forest, J48, Naive Bayes, 
k-NN e Adaboost) e semi-supervisionado OPFSEMImst (Amorim et. al, 2016). Para este 
propósito, utilizou-se a mesma implementação dos autores e submeteu-se o mesmo 
conjunto de imagens de herbívoros da soja apresentado na seção V, dividido em 70% para 
o treinamento e 30% para o teste. Também foi variado o parâmetro k com os valores 25, 
50 e 100 para cada descritor local, a fim de definir o número de palavras visuais usadas no 
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dicionário da abordagem de histograma de palavras visuais. A Tabela 5.3 mostra a TCC e o 


tempo de treinamento para cada arquitetura de aprendizagem profunda e as compara com 


outras abordagens de algoritmos do estado da arte. 


Abordagem qui Ladis PER los (s) pi 
Inception-v3 Fine tuning 25% 5,077.79 | 91.87 
Resnet-50 Fine tuning 50% 4,968.79 | 93.82 
VGG-16 Fine tuning 100% 4,884.36 | 91.80 
VGG-19 Fine tuning 50% 4,909.60 | 91.33 
Xception Fine tuning 75% 5,330.41 90.52 
SVM 43.98 | 60.46 
Random Forest 9.83 | 56.42 

Extratores de atributos 
J48 combinados baseados 5.57 | 48.26 
Naive Bayes RA fa 0.25 | 12.80 
k-NN 0.00 | 42.04 
AdaBoost 0.47 | 47.18 
SIFT SVM e k=25 7,730.66 | 48.80 
SIFT SVM e k=50 12,101.26 | 51.40 
SIFT SVM e k=100 18,710.90 | 52.13 
SURF SVM e k=25 7,391.27 | 48.73 
SURF SVM e k=50 13,238.70 | 49.53 
SURF SVM e k=100 23,487.67 | 50.73 
(21º = 10% e Z1” = 90%) 1.78 | 51.28 
(Z1' = 20% e Z1” = 80%) 1.79 | 52.29 
(21º = 30% e Z1” = 70%) 1.80 | 52.34 
(Z1'= 40% e Z1" = 60%) 1.80 | 52.72 
OPFSEMImst [26] (Z1' = 50% e Z1” = 50%) 1.81 52.63 
(Z1º = 60% e Z1” = 40%) 2.32 | 52.95 
(21º = 70% e Z1” = 30%) 2.33 | 53.61 
(Z1' = 80% e Z1” = 20%) 2.39 | 53.19 
(Z1'= 90% e Z1º = 10%) 241 | 53.52 


Tabela 5.3 - Comparação das arquiteturas de aprendizagem profunda com outras abordagens do 


Como pode ser visto na Tabela 5.3, as arquiteturas de aprendizagem profunda 


estado da arte. 


superaram todos os métodos de descritores locais (para todos os valores de k) e todos 


1 (Swain and Ballard, 1991) 

2 (Dalal and Triggs, 2005) 

3 (Haralick, 1979; Ojala et al., 2002) 
4 (Hu, 1962) 
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os algoritmos de classificação supervisionados. Os métodos de descritores locais SIFT e 
SURF forneceram 52.13% e 50.73% para 100 palavras visuais, respectivamente. Para os 
algoritmos de classificação supervisionados, SVM e Random Forest alcançaram 60.46% 
e 56.42%. 

O sistema semi-superviosionado OPFSEMImst de Amorim et. al (2016) também foi 
treinado usando a mesma implementação dos autores e o mesmo conjunto de imagens 
apresentado na seção V, dividido em 70% para o treinamento (Z,) e 30% para o teste (Z,). 
O conjunto de treinamento Z, foi dividido em Z,' (conjunto rotulado ou supervisionado) 
e Z,” (conjunto não rotulado ou não supervisionado) para aplicação do processo semi- 
supervisionado. OPFSEMImst usa o conjunto supervisionado para treinamento e propaga 
os rótulos mais fortemente conectados para o conjunto não supervisionado. Após a 
propagação, é gerado um classificador supervisionado que é avaliado sobre o conjunto 
de teste Z,. Entre as estratégias de propagação, o maior valor absoluto de TCC forneceu 
53.61% treinando 70% do conjunto supervisionado (Z|' = 70%) e 30% do conjunto não 
supervisionado (Z ” = 30%). 


6.3 Detecção de Insetos da Soja com imagens de VANT 


Esta seção apresenta a abordagem proposta na seção Ill para detecção de 
herbívoros da soja com imagens de VANT. A Figura 5.8 mostra a etapa final do nosso 
sistema de visão computacional ao classificar os segmentos de uma imagem da plantação 
capturada pelo VANT a 2 metros de altura. Aqui, o parâmetro k=2.000 foi ajustado para 


melhor segmentar as pragas na imagem. 


File View Dataset Segmentation Feature Extraction Classification 
Class 


* Acrididae 
= Anticarsia g 
” Coccinellida 
= Diabrotica s 
— Edessa medit 
Euschistus h 
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Nezara virid 
Nezara virid 


No insect 
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500 3000 3500 


o 
too+“'BH zoom rect, x=2205.87 y=2320.35 [139,183, 63] 


Figura 5.8 — Sistema de visão computacional para detectar pragas herbívoras da soja usando imagens 
de VANT. 
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De acordo com a Figura 5.8, os herbívoros podem ser detectados na imagem pela 
cor do segmento que corresponde a sua respectiva classe. Na imagem, pode-se observar 
a existência de quatro segmentos destacados dos demais, isto é, daqueles segmentos que 
não possuem herbívoros: 2 segmentos cianos, 1 segmento magenta e 1 segmento branco, 
os quais correspondem as classes Euschistus heros adulto, Gastropoda e Spodoptera 
spp., respectivamente. Entretanto, os herbívoros pertencentes as classes Euschistus heros 
ninfa e Lagria villosa não foram detectados na imagem pelo nosso software, mesmo sendo 
confirmada a presença deles pelo biólogo entomologista. 

O conjunto de imagens de treinamento e teste do sistema apresentado na seção 
V e avaliado estatisticamente em relação ao desempenho na seção VI foi construído 
com imagens coletadas por uma câmera de smartphone a 50cm de distância do alvo de 
interesse (pragas). Nesta seção, testamos uma imagem de VANT capturada a 2 metros 
de altura da plantação, mas não obtivemos bons resultados para a acurácia na tarefa 
de classificação, assumindo que, para alturas mais elevadas o tamanho das pragas na 
imagem reduz gradativamente e, consequentemente, a resolução das pragas na imagem 
diminui, impactando no desempenho do sistema de visão computacional. Não avaliamos 
estatisticamente o desempenho das imagens capturadas pelo VANT porque elas não 
correspondem à mesma distância de captura do nosso conjunto de imagens de treinamento 
e teste coletadas pela câmera do smartphone. Como alternativa, sensores de alta resolução 
espacial (p. ex.100 ou 200 megapixels) podem ser embarcados em um VANT para capturar 
imagens em alta definição de pragas para alturas mais elevadas, isso demonstra o potencial 
da abordagem proposta, embora o investimento desses equipamentos ainda seja alto. 


71 CONCLUSÃO 


Neste artigo, avaliou-se o desempenho das arquiteturas de aprendizagem profunda 
Inception-V3, Resnet-50, VGG-16, VGG-19 e Xception para a tarefa de classificação de 
imagens de herbívoros da cultura da soja. Considerou-se um passo de segmentação 
de imagem com o algoritmo SLIC superpixels para detectar os herbívoros nas imagens 
coletadas em condições reais do campo. Na etapa de classificação, o desempenho 
das arquiteturas de aprendizagem profunda para diferentes estratégias de fine tuning e 
transfer learning foi comparado com outras abordagens tradicionais de aprendizagem 
e extração de atributos. Os resultados experimentais mostraram que as arquiteturas de 
aprendizagem profunda treinadas com fine tuning levam a taxas de classificação mais altas 
em comparação a outras abordagens do estado da arte, atingindo a TCC de até 93,82% 
com a arquitetura Resnet-50. Os resultados indicam que as arquiteturas avaliadas podem 
apoiar especialistas e agricultores no monitoramento dos níveis de ação de controle de 
pragas nos campos de soja. Como parte do trabalho futuro, pretende-se embarcar câmeras 
de maior resolução no VANT e avaliar o desempenho da abordagem proposta para imagens 
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coletadas em diferentes alturas. Também considera-se avaliar a contagem dos herbívoros 
nas imagens capturadas pelo VANT. 
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RESUMO: A ocorrência de ataques de insetos-pragas nos campos de soja tem preocupado 
agricultores ao redor do mundo. O diagnóstico precoce e automático da quantidade 
de insetos-praga poderia avaliar o nível de infestação de cada área da plantação para 
otimizar as aplicações de pesticidas na cultura e, consequentemente, reduzir os custos de 
produção e o impacto ambiental. Pesquisas recentes em contagem de insetos adotaram 
redes neurais profundas. No entanto, pesquisas empregaram modelos treinados para contar 
somente uma espécie de inseto, usando imagens capturadas em um ambiente controlado, 
bastante diferente de um cenário real. Para obter uma alta acurácia, avaliamos três modelos 
de redes neurais convolucionais com três estratégias de treinamento diferentes: 100% de 
ajuste fino (fine-tuning) com os pesos obtidos no ImageNet, rede completa com os pesos 
inicializados aleatoriamente e transferência de aprendizagem (transfer learning) com os 
pesos obtidos no ImageNet. O aumento (data augmentation) e a eliminação (dropout) de 
dados foram usados durante o treinamento da rede para reduzir o sobreajuste (overfitting) 
e aumentar a generalização do modelo. Nossa abordagem consiste em segmentar uma 
imagem da plantação com o método SLIC e classificar cada segmento de superpixel em 
uma classe de insetos-praga usando o modelo de classificação treinado pela rede neural 
profunda. A contagem de insetos-praga é obtida adicionando-se os insetos de cada classe de 
superpixels identificados pelo nosso sistema de visão computacional. Os resultados indicam 
que os modelos de aprendizagem profunda podem ser usados com sucesso para apoiar 
especialistas e agricultores no manejo de insetos-pragas nos campos de soja. 

PALAVRAS-CHAVE: Aprendizagem profunda, agricultura de precisão, insetos-praga da soja. 
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11 INTRODUÇÃO 


Nos últimos anos, a ocorrência de pragas agrícolas nos campos de soja tem 
preocupado agricultores de diferentes regiões do mundo e o número de aplicações de 
pesticidas tem se intensificado por causa da resistência do princípio ativo por seleção. 
Estima-se que a maior parte do montante dos custos diretos para a produção de soja esteja 
concentrada nos fertilizantes (27,82%), seguidos pelos pesticidas (18,24%), operações 
com máquinas (9,10%), sementes (7,35%) e depreciação de máquinas e implementos 
(6,76%) [1]. 

O controle de insetos-praga consiste em tomadas de decisão de manejo baseadas 
no nível de infestação e no estádio de desenvolvimento das plantas. Essas informações 
são obtidas com inspeções regulares por amostragem em diferentes regiões da lavoura, 
usando métodos de amostragem como: pano-de-batida, rede-de-varredura, exame 
visual de plantas, amostragem de solo e armadilha iscada com feromônio; no entanto, as 
inspeções regulares são difíceis de realizar quando se cultivam grandes áreas. A detecção 
precoce de insetos-praga permite uma aplicação mais eficiente de pesticidas, visto que os 
insumos podem ser aplicados na medida e locais corretos, reduzindo-se assim, os custos 
de produção e o impacto ambiental decorrente da aplicação de pesticidas na área total, 
além de contribuir com a saúde humana e a segurança alimentar [2]. 

Como alternativa aos métodos de amostragens manuais, há uma motivação 
crescente para usar imagens digitais coletadas do campo, tornando possível a criação de 
um sistema de visão computacional para identificar e contar diferentes espécies de insetos- 
praga de uma região da lavoura. Isso é essencial para tornar este tipo de aplicação viável, 
uma vez que uma grande quantidade de imagens é capturada e são necessárias analisá-las 
automaticamente. Além disso, câmeras de alta resolução espacial podem ser embarcadas 
em Veículos Aéreos não Tripulados (VANTs) para capturar imagens da plantação em 
missões de coleta de dados, permitindo que especialistas e agricultores tomem melhores 
decisões de manejo de pragas. 

Neste artigo, propusemos um sistema de visão computacional para identificar 
automaticamente insetos-praga na soja, a partir de imagens capturadas por uma câmera 
digital. Primeiro, consideramos uma etapa de segmentação de imagem com o método 
SLIC Superpixels para segmentar os insetos nas imagens coletadas durante a fase de 
inspeção no campo. A abordagem proposta foi testada usando um conjunto de dados com 
10.000 imagens, dividido em 7 classes de insetos-praga, para medir a acurácia e o tempo 
de treinamento dos modelos de aprendizagem profunda na tarefa de classificação. Nossa 
metodologia avalia o desempenho de três redes neurais profundas bem conhecidas da 
literatura, treinadas com três estratégias de treinamento diferentes: 100% de ajuste fino 
(fine-tuning) das camadas de rede com os pesos obtidos no ImageNet, rede completa com 
os pesos inicializados aleatoriamente e transferência de aprendizagem (transfer learning) 
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com os pesos obtidos no ImageNet. 

Nós usamos o modelo de classificação da rede neural profunda melhor avaliada 
para a acurácia em nosso sistema de visão computacional com o objetivo de classificar os 
superpixels na imagem e contar os insetos de cada classe, calculando assim, o nível de 
infestação de uma região da lavoura. Na tarefa de contagem, quatro métricas foram usadas 
para avaliar a abordagem proposta. 


21 TRABALHOS RELACIONADOS 


Dentro do paradigma da aprendizagem profunda, [3] projetou um contador automático 
para discernir e contar ovos de nematódeos de cisto de soja (NCS) por meio de imagens 
microscópicas. Eles treinaram uma rede neural convolucional (RNC) com dados rotulados 
por especialistas para aprender a reconstruir um padrão de “ovo” reduzindo cada imagem 
rotulada em um conjunto de dimensões (16 x 16) contendo um único ovo ou nenhum ovo. 
O modelo então verifica as imagens de teste, patch por patch e, em seguida, identifica 
se cada patch contém um ovo. Os ovos detectados são então contados usando uma 
função de anotação da matriz. Os resultados indicam melhorias significativas no tempo de 
quantificação dos ovos, mantendo a precisão do nível humano, no entanto, onde ocorrem 
sobreposições ou oclusão dos ovos NCS, a ferramenta de contagem não foi tão eficiente. 

Chen et al. [4] propôs um método para segmentação e contagem de ninfas 
de afídeos usando RNCs. Imagens digitais de folhas de pakchoi (repolho chinês) em 
diferentes estágios de infestação de afídeos foram obtidas e uma máscara binária no nível 
de pixel correspondente foi anotada manualmente para cada imagem, identificando cada 
pixel como um afídeo (branco) ou fundo (preto). Após a segmentação, eles simplesmente 
contaram o número de componentes brancos conectados como a quantidade de ninfas 
de afídeo para cada imagem. O resultado da contagem automática mostrou alta precisão 
(0,9563) e revocação (0,9650), porém o método falhou em alguns casos: lesões em folhas, 
exoesqueletos de pulgões velhos e áreas de condições de iluminação complexas. Outra 
limitação deste método é o tedioso procedimento de anotação, pixel por pixel, antes do 
treinamento. 

Algoritmos de aprendizagem de máquina também foram propostos para detectar 
espécies de insetos, como abelhas [5], invertebrados comuns (p. ex. borboletas, gafanhotos) 
e moluscos (p. ex. caracóis e lesmas) [6], além de contar moscas brancas [7] e pulgões [8] 
em folhas de soja. No entanto, em todos os trabalhos citados, as imagens foram coletadas 
em condições onde a iluminação e a reflexão de fundo podem ser bem controladas, além 
disso, os autores não compararam os resultados com outras abordagens do estado da arte, 
como Inception-ResNet-v2 e DenseNet-201. 

Uma abordagem baseada em aprendizagem profunda usando imagens capturadas 
em condições reais do campo, sob diferentes condições de iluminação, tamanho de objetos 
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e variações de fundo foi proposta em [9] para detectar doenças e pragas em plantas de 
tomate. Uma revisão da literatura sobre classificação de insetos baseada em imagens, 
em que foram investigadas as questões que ainda podem permanecer não resolvidas foi 
apresentada em [10]. 


31 ABORDAGEM PROPOSTA 


Esta seção apresenta uma abordagem de visão computacional para classificação e 
contagem de insetos-praga na soja, a partir de imagens coletadas em condições reais do 
campo. A abordagem proposta adota o método SLIC Superpixels para segmentar os insetos 
nas imagens. O método SLIC emprega o algoritmo k-means [11] para a geração de regiões 
semelhantes, chamadas superpixels. O parâmetro k do algoritmo refere-se ao número de 
superpixels na imagem e permite controlar o tamanho dos superpixels. O parâmetro m 
corresponde ao controle de compactação das regiões geradas. Nós fixamos os parâmetros 
k=1.000 e m=50 para segmentar os insetos nas imagens, definidos pela aderência aos 
limites de tamanho e compactação do algoritmo SLIC. Esses parâmetros correspondem ao 
menor tamanho de superpixel encontrado para segmentar o maior objeto de interesse na 
imagem, no caso, o inseto-praga da espécie Spodoptera. 

O algoritmo SLIC Superpixels agrupa pixels de acordo com a cor dos pixels usando 
os componentes CIELAB!, /, a, b, bem como as coordenadas xe y dos pixels. Uma imagem 
de entrada é segmentada em regiões regulares, definindo o número k de superpixels com 
aproximadamente pixels, onde N é o número de pixels da imagem. Cada região compõe 
um superpixel inicial de dimensões S xS, onde S = = Os centros dos agrupamentos 
de superpixel C, = [1 a, D, X» Y] com k= [1, k] são amostrados em uma matriz regular 
espaçada em S pixels. Os centros são movidos para a posição de gradiente mais baixa em 
uma vizinhança de 3 x 3, evitando a alocação de centroides em uma borda e reduzindo a 
chance de semear um superpixel com um pixel ruidoso. Cada pixel é associado ao centro do 
agrupamento mais próximo, uma etapa de atualização ajusta os centros dos agrupamentos 
para serem o vetor médio /abxy de todos os pixels pertencentes ao agrupamento [12]. 

Um diagrama esquemático do sistema proposto é mostrado na Figura 6.1. Ela 
ilustra a abordagem proposta que consiste em quatro etapas: (a) Aquisição de imagem, (b) 
Segmentação SLIC, (c) Anotação de imagem e, finalmente (e) Classificação e contagem 
de pragas. Inicialmente, foi realizada uma inspeção no campo para capturar imagens da 
plantação (veja o passo (a) na Figura 6.1). Estas imagens foram segmentadas usando 
o método SLIC Superpixels (veja o passo (b) da Figura 6.1). Após a segmentação da 
imagem, cada superpixel foi anotado por um especialista para compor um conjunto de 
dados de imagens de superpixel para treinamento e teste do sistema, veja o passo (c) 
da Figura 6.1. Depois, as imagens anotadas foram divididas em sete classes de insetos- 


1 O espaço de cores CIELAB é definido por três valores: L' para a luminosidade de preto (0) para branco (100), a' de 
verde (-) para vermelho (+) e b' de azul (-) para amarelo (+). 
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praga: (1) Diabrotica speciosa, (2) Euschistus heros adult, (3) Euschistus heros nymph, 
(4) Euschistus heros mating, (5) Gastropoda, (6) Spodoptera spp. e (7) sem insetos- 
praga (fundo). Posteriormente, uma RNC foi treinada para aprender os recursos visuais 
dos superpixels e, finalmente, criar o modelo de classificação para classificar imagens de 
insetos-praga (veja o passo (d) da Figura 6.1). 


INPUT CONVOLUTION + RELU POOLING CONVOLUTION + RELU POOLING FULLY CONNECTED SOFTMAX 


(d) Classificação e contagem de pragas 


Figura 6.1 — Proposta de um sistema de visão computacional para classificar e contar insetos pragas 
da soja. 


O estágio de pós-processamento consiste em segmentar uma imagem da plantação 
com o método SLIC e classificar cada segmento de superpixel em uma classe específica. O 
sistema percorre a imagem da esquerda para a direita de cima para baixo, classificando cada 
superpixel individualmente usando o modelo de classificação treinado pela RNC, enquanto 
fornece a cor da classe simultaneamente. Assim, um mapa colorido é gerado fornecendo 
uma classe por segmento. A contagem de insetos-praga é obtida pelo resultado da adição 
de cada classe de superpixels relatada pelo nosso sistema de visão computacional. A 
complexidade computacional do processo de segmentação limita o espaço de busca a 
uma região proporcional ao tamanho dos superpixels. Isso reduz a complexidade linear ao 
número de k superpixels, em vez do número de n pixels. 
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41 MATERIAIS E MÉTODOS 


4.1 Aquisição de imagem 

As imagens da plantação foram coletadas em uma área agrícola de soja de 100ha 
localizada na cidade de Dourados-MS, Brasil, com coordenadas geográficas 22º14'15.83” 
de latitude sul e 55º0"1.75” de longitude oeste. Um total de 1.000 imagens foram coletadas 
em dias e condições climáticas diferentes, entre 18h e 19h:30min, durante os estádios 
fenológicos reprodutivos R1 a R6 da fase reprodutiva da soja na safra 2018/19. Duas 
pessoas participaram da coleta de imagens e anotação do conjunto de dados, sendo um 
especialista em domínio. 

As imagens digitais com tamanho 4032 x 2268 pixels foram capturadas pelo 
pesquisador no local, usando uma câmera digital equipada com um sensor 1/2.5” Samsung 
SM-G930F de 12.2 megapixels de resolução. Essas imagens foram registradas sobre os 
alvos de interesse a 1 metro de altura da plantação, usando um ângulo de aproximadamente 
45º da câmera em relação ao solo. Neste caso, escolhemos um metro porque valores mais 
baixos diminuem a quantidade de insetos na imagem; por outro lado, usando valores mais 
altos, o tamanho do inseto na imagem é gradualmente reduzido e, consequentemente, a 
resolução do inseto na imagem diminui. Também consideramos o uso de 1 metro de altura 
porque sua área de cobertura é semelhante a um pano de batida. Em seguida, cada imagem 
foi segmentada com o método SLIC Superpixels e anotada com apoio de um especialista, 
criando assim, um conjunto de dados de imagens de superpixel para treinamento e teste do 
sistema (veja a Figura 6.2), chamado INSECT10K7C e disponível em [13]. 
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Aerial Front Side Occlusion Reflection Blur 
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Gastropoda 
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Background 
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Spodoptera 


89 images 


Figura 6.2 — Exemplos de imagens de superpixels do conjunto de imagens, divididos em espécies de 
insetos-praga da cultura da soja, fundo e números de imagens por classe. 


Como mostra a Figura 6.2, as imagens foram coletadas em condições reais de 
campo com diversas variações não controladas, como condições de iluminação e reflexão 
distintas, tamanho e posicionamento de objetos, oclusão, movimento das folhas, variações 
de fundo, acasalamento e fases de desenvolvimento. Essas variações nas condições reais 
de campo contribuem para o sistema operar em um cenário real. No campo experimental, 
constatou-se que a exposição dos insetos na parte superior das plantas geralmente ocorre 
no início do dia ou no final da tarde, reforçando a recomendação de que amostragens de 
insetos da parte aérea sejam realizadas, preferencialmente, nos períodos com temperaturas 


mais amenas do dia (<30ºC) e com maior umidade (>55%), conforme relatado em [14]. 
4.2 Desenho experimental 


Na tarefa de contagem, nós dividimos um total de 1.000 imagens coletadas da área 
agrícola em 70% para o treinamento (Z) e 30% para o teste (Z,). Quatro métricas foram 
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usadas para avaliar o desempenho da contagem no conjunto (Z,): acurácia de detecção 
média, precisão média, medida-F e erro médio absoluto. 

Na tarefa de classificação, duas métricas foram usadas para avaliar o desempenho 
dos classificadores: acurácia e tempo de treinamento para construir o modelo de 
classificação. Para o treinamento e teste dos classificadores, uma validação cruzada de 10 
dobras estratificada foi usada no conjunto Z, que contém as imagens de superpixels. Neste 
esquema, as imagens do conjunto de dados são particionadas em 10 dobras, garantindo 
que cada dobra tenha a mesma proporção de cada classe. Em seguida, uma dobra é 
usada para teste, enquanto as dobras restantes são usadas para treinar o classificador. 
O processo é repetido 10 vezes usando cada dobra exatamente uma vez para o teste. 
Finalmente, a acurácia é dada pela média das 10 rodadas. Para cada modelo de RNC 
testado, nós calculamos os desempenhos médios para as métricas acurácia e tempo de 
treinamento. 

Na etapa de segmentação, cada imagem do conjunto (Z,) foi segmentada e todos 
os insetos-praga localizados nas imagens foram rotulados. O número de cada espécie 
na Figura 6.2 representa a ocorrência total dos insetos-praga nas imagens. Nesta 
etapa, constatou-se a baixa ocorrência de insetos que não causam dano econômico à 
soja: como Musca domestica, Araneae, Coccinellidae, Lepidoptera e Formicidae. Outras 
espécies causadoras de dano também foram encontradas em pequeno número, como 
Edessa meditabunda, Nezara viridula, Dichelops melacanthus e Acrididae. Essas espécies 
foram excluídas do conjunto de imagens porque o número de ocorrências (<.05%) não 
é representativo em relação ao tamanho da amostra, além de ser considerado limitado 
para treinar as redes neurais convolucionais. Nós também criamos uma classe chamada 
Euschistus herus nymph que corresponde a mesma espécie do inseto Euschistus heros em 
fases de ninfa porque esta distinção é importante na avaliação do nível de infestação de 
insetos-praga no campo. De modo semelhante, nós também criamos uma classe chamada 
Euschistus herus mating para representar o acasalamento desta espécie, ou ainda dois 
insetos desta espécie no mesmo segmento, porque este é um evento comum no campo e 
a segmentação de objetos sobrepostos ou muito próximos entre si tem sido um problema 
de difícil solução, conforme relatado em [3]. 

Para analisar se os modelos diferem estatisticamente em relação ao seu 
desempenho, utilizamos o teste de hipótese ANOVA. Relatamos os valores-p encontrados 
para cada métrica e o nível de significância foi definido para 5%. 


4.3 Aumento de Dados e Análise de Treinamento 


Para classificação de imagens, modelos de aprendizagem profunda são treinados 
com imagens rotuladas para aprender como identificá-las e classificá-las de acordo com 
os padrões visuais. Em nossos experimentos, usamos implementações de código aberto 
de três modelos de aprendizagem profunda reconhecidos pela concorrência no ImageNet: 
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Inception-Resnet-v2 [15], ResNet-50 [16] e DenseNet-201 [17]. 

Nos experimentos, usamos os seguintes parâmetros de entrada. A largura e a altura 
da imagem de entrada foram igualmente definidas em 256 pixels. O tamanho do lote foi 
definido com 16 imagens para treinamento e o número de épocas foi usado 50, uma vez 
que a convergência estava em poucas iterações. Usamos o otimizador SGD com taxa 
de aprendizagem de 0,0001 e momento de 0,9 (acelera o SGD na direção relevante e 
amortece as oscilações). A abordagem proposta usa um conjunto de 10.000 imagens de 
superpixels distribuído em 7 classes, o que pode não ser suficiente para treinar um modelo 
de aprendizagem profunda. Assim, o conjunto de dados foi submetido à técnica de aumento 
de dados para aumentar a quantidade de dados aplicando operações de rotação, reescala, 
rolagem e zoom. Esta técnica visa reforçar a invariância de rotação e invariância à escala 
na tarefa de classificação. A taxa de dropout utilizada nos experimentos foi fixada em 50%. 
Também mantivemos os mesmos parâmetros para o aumento de dados, isto é, reescala 
de 1./255 significando o fator de multiplicação para cada pixel da imagem, com rolagem 
horizontal (alterna aleatoriamente imagens horizontalmente), modo de preenchimento mais 
próximo (pontos fora do limites de entrada são preenchidos de acordo com a direção mais 
próxima); faixa de zoom com fator de ampliação de imagem 0.3, faixa de deslocamento 
de largura de 0.3 para fator de deslocamento horizontal e vertical, faixa de rotação de 30. 

Com o objetivo de avaliar estatisticamente o potencial dos modelos para identificação 
de insetos-praga, definimos três diferentes estratégias de treinamento. Utilizamos 
um ajuste fino de 100% para as camadas de rede com os pesos obtidos do ImageNet. 
Também treinamos a rede completa com os pesos inicializados aleatoriamente, além de 
um aprendizado de transferência com os pesos obtidos do ImageNet. Em todos os nossos 
experimentos usamos uma workstation com Processor Intel Core i7-6800K 3.40GHz 15MB 
(6N, 12T), placa gráfica Nvidia Titan Xp 12GB 3840 cuda cores, memória RAM 16GB 
Kingston DDR4 2400MHz, SSD de armazenamento 120GB 2.5"SATA III Kingston Ultra- 
valor 400. 


5| RESULTADOS E DISCUSSÃO 


ATabela 1 mostra os resultados da acurácia obtidos pelos modelos de aprendizagem 
profunda. Nossa abordagem alcançou o melhor resultado com o DenseNet-201 (94,89%) 
usando um ajuste fino de 100% (FT). A tabela também mostra o tempo total de treinamento, 
em horas, para construir o modelo de classificação. Os resultados de tempo da Tabela 1 
referem-se às especificações de hardware apresentadas na Seção 4.3. Os resultados do 
teste ANOVA indicam que não há evidência de diferença estatisticamente significativa no 
desempenho médio dos modelos testados em um nível de significância de 5% usando a 
acurácia (valor-p = .382) e o tempo de treinamento (valor-p = .202) como métricas. Além 
disso, a estratégia de ajuste fino (FT) apresentou taxas de classificação mais altas em 
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comparação com outras estratégias de treinamento, mas ela obteve longos períodos de 
treinamento porque mais camadas são retreinadas usando essa estratégia. 


Modelo io | rempeonom | Acurácao 

DenseNet-201 FT 24.47 94.89 
DenseNet-201 TL 19.40 61.16 
DenseNet-201 No TL 23.59 85.29 
Inception-Resnet-v2 FT 31.48 93.40 
Inception-Resnet-v2 TL 18.42 66.79 
Inception-Resnet-v2 No TL 28.01 85.86 
Resnet-50 FT 22.38 93.78 
Resnet-50 TL 19.31 59.27 
Resnet-50 No TL 22.16 84.32 


Tabela 1. Métricas de desempenho usadas para avaliar os modelos de aprendizagem profunda. 


A Figura 6.3 apresenta as matrizes de confusão dos modelos de aprendizagem 
profunda para as imagens do conjunto de testes. De acordo com esta figura, a classe 
Euschistus heros acasalamento e Euschistus heros obtiveram proporcionalmente o maior 
número de ocorrências mal classificadas, uma vez que ambas as classes se referem à 
mesma espécie de inseto em diferentes quantidades. No entanto, a classe Euschistus 
heros foi capaz de discriminar bem os insetos individuais nas imagens em relação à 
classe de acasalamento que contém dois insetos. Além disso, a matriz de confusão para a 
estratégia de treinamento de transferência de aprendizagem (TL) mostra que os modelos de 
aprendizagem profunda treinados com os pesos obtidos no ImageNet somente refinaram a 
detecção de fundo e não contribuíram significativamente para a detecção correta de classes 
de insetos. Por outro lado, o ajuste fino (FT) alcançou as maiores taxas de classificação em 


comparação com outras estratégias de treinamento. 
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Figura 6.3 —Matrizes de confusão dos modelos de aprendizagem profunda. (a) DenseNet-201 FT. 
(b) Inception-Resnet-v2 FT. (c) Resnet-50 FT. (d) DenseNet-201 TL. (e) Inception-Resnet-v2 TL. (f) 
Resnet-50 TL. (9) DenseNet-201 No TL. (h) Inception-Resnet-v2 No TL. (i) Resnet-50 No TL. 


A Tabela 2 apresenta quatro métricas propostas para avaliar o desempenho da 
contagem no conjunto de testes Z,. Usamos a RNC de melhor valor para a acurácia na 
tarefa de classificação empregando os pesos do modelo DenseNet-201 FT em nosso 
sistema de visão computacional. A contagem de insetos-praga é obtida pelo resultado da 
adição dos superpixels de cada classe, como mostra a Figura 6.4. A classe Euschistus 
heros mating é a única exceção. O resultado quantitativo dessa classe foi multiplicado por 
dois porque contém dois insetos em cada superpixel. Assim, o resultado quantitativo das 
pragas de insetos de cada imagem da plantação pode ser comparado entre a contagem 
humana e a contagem do nosso sistema de visão computacional para as quatro métricas 


propostas. 
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Métrica Fórmula Conjunto de Teste (Z,) 


a rs 2038 
Acurácia de detecção média (ADM) LCA 245 = 90,86% 
CH+ME 
po Ra Ê XCA 2038 
Precisão Média (PM) ESSE hoc A 550. = 89,19% 
XCH+ME+JCE 2285 
Medida-F 2 x PM x ADM 6.00 
pi | PM + ADM 
Erro médio absoluto MDA GR DAI 0,61 


onde CA é a contagem do algoritmo, CH é a contagem humana, ME é a margem de erro, CEé a 
contagem excedida e N é o número total de imagens de amostra testadas. A margem de erro é 
encontrada tomando 5% da contagem total humana para todas as imagens no conjunto de testes 
(Z). 


Tabela 2. Métricas de desempenho usadas para avaliar a abordagem proposta na tarefa de contagem. 
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Figura 6.4 — Captura de tela do nosso sistema de visão computacional em um campo de cultivo de 
soja. O sistema denominado PYNOVISÃO apresenta a etapa de segmentação de insetos-praga e a 
classificação de superpixels utilizando o modelo DenseNet-201 FT. Os rótulos de cor representam as 
categorias do nosso problema. PYNOVISÃO foi registrado pelo INPI sob o número BR 51 2019 000427 
2. 


61 CONCLUSÃO 


Neste artigo, avaliamos três modelos de aprendizagem profunda para as tarefas 
de classificação e contagem de insetos-praga da soja. Consideramos um passo de 
segmentação de imagem com o algoritmo SLIC Superpixels para segmentar os insetos 
nas imagens. Na etapa de classificação, comparamos três modelos de aprendizagem 
profunda reconhecidos pela concorrência no ImageNet: Inception-Resnet-v2, ResNet-50 e 
DenseNet-201. O DenseNet-201, usando um ajuste fino (FT) de 100%, foi o modelo mais 
apropriado para a classificação de insetos-praga da soja a partir de imagens coletadas a 
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1 metro de altura. Os resultados experimentais também mostraram que os modelos de 
aprendizagem profunda treinados com um ajuste fino levam a taxas de classificação mais 
altas em comparação às outras estratégias de treinamento. 

No experimento com contagem, nós usamos o modelo de classificação da rede 
neural profunda melhor avaliada para a acurácia em nosso sistema de visão computacional 
com o objetivo de classificar cada segmento de superpixel da imagem. A contagem dos 
insetos-pragas foi obtida somando os superpixels de cada classe, calculando assim, o 
nível de infestação de uma região da lavoura. Os resultados da contagem mostraram que 
a acurácia diminui quando um mesmo inseto é segmentado em dois superpixels diferentes. 
Este é um campo de pesquisa que tem sido explorado, mas ainda não está resolvido. 

Também foi demonstrado como um modelo de aprendizagem profunda pode ser 
implementado em um sistema de visão computacional para operar em um cenário real 
do campo, sob diferentes condições de iluminação, tamanho de objetos e variações de 
fundo. Os resultados indicam que os modelos avaliados podem apoiar agricultores no 
monitoramento de insetos-praga da soja. Como parte do trabalho futuro, pretendemos 
avaliar novas abordagens de aprendizagem de máquina para detecção de múltiplos objetos 
com câmeras de maior resolução embarcadas no VANT. 
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CAPÍTULO 7 - CONCLUSÕES E TRABALHOS FUTUROS 


Este trabalho apresentou um sistema de visão computacional para identificar doenças 
foliares e insetos-praga na cultura da soja com imagens de VANT. Inicialmente, avaliou-se o 
desempenho de seis técnicas rasas de aprendizagem de máquina para identificar doenças 
na soja, usando cinco alturas de voo diferentes: 1, 2, 4, 8 e 16 metros. Os experimentos 
sustentaram a hipótese de que as alturas de voo mais próximas entre o VANT e a planta 
apresentam maiores taxas de classificação correta. O classificador SVM combinado com 
SLIC obteve 98,34% na identificação da doença foliar usando alturas de voo entre 1 e 
2 metros, com decaimento de 2% a cada metro, uma vez que a resolução da planta na 
imagem diminui para alturas de voo mais altas. Os experimentos também confirmaram 
que mesmo catalogando novas doenças e aumentando o número de 3 para 6 classes, não 
houve evidência de diferença estatística significativa das métricas de desempenho para os 
dados coletados pelo VANT a 2 metros de altura da plantação. 

Quatro arquiteturas de aprendizagem profunda - Inception-V3, Resnet-50, VGG-19 e 
Xception - foram avaliadas para o reconhecimento automático de doenças foliares da soja, 
usando imagens capturadas pelo VANT a 2 metros de altura da plantação. Considerou-se 
uma etapa de segmentação de imagem com o algoritmo SLIC Superpixels para segmentar 
as folhas das plantas nas imagens. Na etapa de classificação, o desempenho das 
arquiteturas de aprendizagem profunda foi comparado com outras abordagens tradicionais, 
usando diferentes estratégias de ajuste fino e transferência de aprendizagem. Os resultados 
experimentais mostraram que as arquiteturas de aprendizagem profunda possibilitam taxas 
de classificação mais altas em comparação a outras abordagens, atingindo uma acurácia 
de até 99,04%. Além disso, as estratégias de ajuste fino 100% e 75% alcançaram as 
maiores taxas de classificação em comparação a outras estratégias de treinamento, no 
entanto obtiveram longos tempos de treinamento porque o ajuste fino não apenas substitui 
e treina novamente o classificador no conjunto de dados, mas também ajusta os pesos da 
rede neural pré-treinados com o algoritmo de retropropagação. Juntos, nossos resultados 
mostram que modelos de aprendizagem profunda com pesos computados de ajuste fino 
generalizam bem em conjunto de dados de imagem de doenças da soja. 

De maneira análoga, avaliou-se o desempenho das arquiteturas de aprendizagem 
profunda para a identificação de insetos-praga na soja, usando imagens coletadas por uma 
câmera digital a 50 cm de distância dos alvos de interesse em condições reais de campo. 
Os resultados mostraram que as arquiteturas de aprendizagem profunda treinadas com 
um ajuste fino obtêm maiores taxas de classificação em comparação a outras abordagens, 
alcançando uma acurácia de até 93,82% com a arquitetura Resnet-50. Por outro lado, o 
sistema de visão computacional não identificou com eficiência os insetos nas imagens 
capturadas com o VANT a 2 metros de altura da plantação, visto que para alturas de voo 
mais altas o tamanho dos insetos na imagem reduz gradativamente e, consequentemente, 
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a resolução da imagem dos insetos diminui, impactando no desempenho do sistema de 
visão computacional. 

Como alternativa, sugerimos para o trabalho futuro embarcar câmeras RGB de 
maior resolução (por exemplo, 400 megapixels) no VANT para avaliar o desempenho da 
abordagem proposta em diferentes alturas de voo. Um voo mais alto com o VANT também 
permitiria aumentar a área de cobertura para avaliar níveis de infestação de doenças e 
insetos-praga em diferentes áreas do campo. Embora o investimento desses equipamentos 
ainda seja alto, eles tem caído de preço nos últimos anos, o que tem aumentado a viabilidade 
de sua aquisição pelo produtor rural. Também pretendemos aumentar o conjunto de 
dados, catalogando novas espécies de doenças (p.ex.: Crestamento foliar de cercospora, 
Mofobranco, Antracnose) e pragas (p. ex.: Percevejo-verde-pequeno, Falsa-medideira) a 
cada nova safra, pois algumas espécies não foram localizadas no campo durante o período 
de estudo. 

No experimento com contagem, usamos os pesos do modelo de aprendizagem 
profunda que alcançou o melhor resultado para a acurácia em nosso sistema de visão 
computacional. O nível de infestação de uma região da lavoura foi avaliado a partir da soma 
dos insetos de cada classe de superpixels, tomando como entrada uma imagem do campo 
e retornando como saída o número de insetos de cada espécie e a sua localização na 
imagem. Resultados experimentais da contagem mostraram que a acurácia diminui quando 
um mesmo inseto é segmentado em dois superpixels diferentes. Este é um campo de 
pesquisa que tem sido explorado, mas ainda não está resolvido. Por outro lado, o sistema de 
visão computacional foi capaz de discriminar bem as espécies de insetos em um ambiente 
real com variações não controladas, como condições de iluminação e reflexão distintas, 
tamanho e posicionamento de objetos, oclusão, movimento das folhas, variações de fundo, 
acasalamento e fases de desenvolvimento. Essas variações nas condições reais de campo 
contribuem para o sistema operar em um cenário real. Como parte do trabalho futuro, 
sugerimos comparar os resultados quantitativos, usando o sistema de visão computacional, 
com os resultados quantitativos, usando algum método de amostragem manual (p. ex.: 
pano-de-batida), a fim de avaliar a correlação existente entre os métodos de amostragem 
manual (especialistas da área) e automático (sistema). 

Outro parâmetro fundamental para o sucesso do monitoramento de pragas é 
adequação da tecnologia às condições climáticas no momento da coleta de imagens. Da 
mesma forma à aplicação por pulverização, a coleta de imagens com o VANT deve ser 
realizada no início da manhã ou no final da tarde para garantir boa cobertura, seguindo a 
mesma regra geral: temperatura ambiente abaixo de 300C e umidade relativa do ar acima 
de 55%. Já o monitoramento de doenças deve ser realizado entre 10h e 14h para evitar 
o efeito de sombra no campo. No caso dos requisitos ambientais de voo, o DJI Phantom 
não deve ser utilizado em condições climáticas rigorosas. Isso inclui velocidade do vento 


excedendo 10m/s, neve, chuva e névoa, conforme especificações técnicas do fabricante. 
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Determinar o nível de ação de controle da doença ou praga para iniciar o controle 
químico não é uma tarefa trivial. O nível de ação de controle refere-se à menor densidade 
populacional da doença ou praga que indica a necessidade de controle químico para 
impedir que uma perda de produção de valor econômico seja atingida. Essa relação nunca 
é fixa, pois o custo de controle químico (valor dos insumos, operações com máquinas, etc) 
variam ao longo do tempo, assim como a produtividade de cada área e o valor da soja. 
Portanto, uma equação de nível de dano econômico deve guiar o momento a partir do qual 
o produtor deve realizar o controle, ou seja, a partir de que população há uma redução da 
produção de soja que seja capaz de pagar o controle e gerar lucro. 

Também demonstramos como um modelo de aprendizagem profunda pode ser 
implementado em um sistema de visão computacional de ponta a ponta para operar em um 
ambiente de campo real, permitindo o diagnóstico do problema in loco da zona apontada 
na análise, tendo como objetivo o devido controle da área georreferenciada. O sistema 
de visão computacional consiste em segmentar uma imagem da plantação com o método 
SLIC e classificar cada segmento de superpixel em uma classe de doença ou inseto-praga 
usando os pesos da rede neural convolucional melhor avaliada para a acurácia na tarefa 
de classificação. 

Os resultados indicam que os modelos de aprendizagem profunda, treinados com 
um ajuste fino, podem ser usados com sucesso para apoiar especialistas e agricultores 
no monitoramento dos níveis de ação de controle de doenças e pragas nos campos de 
soja, contribuindo com o setor agropecuário e o desenvolvimento local, uma vez que a 
região poderá ser beneficiada com uma inovação tecnológica capaz de (1) impulsionar 
um dos principais setores econômicos com a aplicação racional de insumos, reduzindo a 
quantidade necessária de aplicações de defensivos agrícolas nos campos de soja e os riscos 
de degradação ambiental em propriedades de todas as dimensões; (2) maximizar o retorno 
econômico com o aumento da produtividade agrícola a partir de uma solução tecnológica 
não-invasiva, uma vez que os métodos de amostragens tradicionais normalmente afetam 
o desenvolvimento das plantas pelo pisoteamento intenso causando danos na lavoura; 
(3) cooperar com o desenvolvimento social, mediante a contratação de novas vagas de 
trabalho de mão de obra especializada para monitorar doenças e pragas (empresas de 
consultoria ou prestadores de serviços na área de amostragem e geração de mapas), com 
a provável redução do número de profissionais capacitados para fazer a verificação em 
campo, como o técnico agrícola ou o engenheiro agrônomo, que demandam maior custo 
de produção devido ao piso salarial reconhecido; (4) contribuir com as políticas nacionais 
de ciência, tecnologia e inovação com base no Registro do Programa de Computador 
PYNOVISÃO, protocolado pelo INPI, Processo N : BR512019000427-2; (5) e melhorar 
a saúde humana e a segurança alimentar por meio de uma alternativa tecnológica viável 
e ecologicamente correta capaz de garantir a sustentação da vida e a promoção do ser 


humano no âmbito das dinâmicas socioambientais internas e externas. 


Capítulo 7 


115 


Como parte do trabalho futuro, pretendemos avaliar novas abordagens de aprendizado 
de máquina para detectar múltiplos objetos (insetos-praga, doenças, etc) usando câmeras 
RGB de alta resolução que podem ser integradas no VANT. Particularmente, estamos 
interessados em comparar a abordagem proposta, usando o método de segmentação 
SLIC e redes neurais profundas, com métodos estado da arte para detecção de objetos, 
como Yolo, Faster R-CNN, RetinaNet; e métodos para detecção de objetos integrada à 
segmentação semântica, como Mask R-CNN. 

Os algoritmos de superpixel tem provado ser uma etapa inicial útil para segmentação 
e anotação de imagens, reduzindo a complexidade computacional pela substituição do 
uso de primitivas caras em nível de pixel por uma abstração de alto nível, os superpixels. 
Eles foram aplicados com sucesso tanto no contexto da análise tradicional de imagens 
quanto nas abordagens baseadas em aprendizagem profunda. Neste contexto, planejamos 
comparar a implementação iterativa padrão do algoritmo SLIC com uma implementação 
que pode ser substituída por uma execução paralela em sistemas multi-processados (multi- 
threaded), com prováveis ganhos em tempo de execução. 

Por fim, cogitamos realizar uma análise multi-escala para a fusão de imagens de 
satélites de áreas da plantação que sofreram ataques de doenças e pragas em níveis 
de ação de controle. A fusão de imagens de satélites possibilitaria a coleta simultânea 
de imagens multiespectrais e pancromáticas com diferentes resoluções, aumentando 
a escalabilidade geográfica e a área de cobertura do campo. Desse modo, as imagens 
de satélites poderiam ser combinadas para gerar imagens híbridas que combinariam as 
propriedades das imagens originais numa única nova imagem, associando a informação 
espectral ao seu conteúdo espacial e à sua resolução. 
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ANEXO C - PRÊMIO MERCOSUL DE CIÊNCIA E TECNOLOGIA 2018 
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do Brasil (MCTIC), do Conselho Nacional de Desenvolvimento Científico e 
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(MBC), concede o Prêmio MERCOSUL de Ciência e Tecnologia - ano 2018 a 


Ererton Castelão Cetilz 
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pelo trabalho 


Uma abordagem de aprendizagem profunda para contagem 
automática de insetos-praga na soja. 
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